AIモデル向けWikipediaデータアクセス改善:Wikimedia Deutschlandが新プロジェクトを発表

AIモデル向けWikipediaデータアクセス改善:Wikidata Embedding Project

2025年10月1日水曜日、Wikimedia Deutschlandは、AIモデルがWikipediaの膨大な知識にアクセスしやすくするための新しいデータベースを発表しました。この「Wikidata Embedding Project」と呼ばれるシステムは、Wikipediaとその姉妹プラットフォームに存在する約1億2千万件のエントリに対し、ベクトルベースのセマンティック検索技術を適用します。これにより、コンピューターが単語間の意味と関係性を理解するのに役立ちます。

プロジェクトの詳細と技術的側面

本プロジェクトは、AIシステムがデータソースと通信するのを助ける標準であるModel Context Protocol (MCP)の新たなサポートと組み合わされています。これにより、大規模言語モデル(LLM)からの自然言語クエリに対して、データがよりアクセスしやすくなります。この取り組みは、Wikimediaのドイツ支部が、ニューラル検索企業のJina.AIと、IBM傘下のリアルタイムトレーニングデータ企業DataStaxと協力して実施されました。

RAGシステムへの貢献とセマンティックコンテキストの強化

これまでWikidataは機械可読データを提供してきましたが、既存のツールはキーワード検索や専門的なクエリ言語であるSPARQLクエリに限定されていました。新しいシステムは、AIモデルが外部情報を引き出すことを可能にするRetrieval-Augmented Generation (RAG)システムとより効果的に連携します。これにより、開発者はWikipediaの編集者によって検証された知識に基づいてモデルを「根拠付ける」機会を得ることができます。

このデータは、重要なセマンティックコンテキストを提供するように構造化されています。例えば、「科学者」という単語でデータベースをクエリすると、著名な核科学者やベル研究所で働いた科学者のリストだけでなく、多言語での「科学者」の翻訳、Wikimediaが承認した科学者の画像、さらには「研究者」や「学者」といった関連概念への拡張も得られます。

AI開発における高品質データの重要性

この新しいプロジェクトは、AI開発者がモデルのファインチューニングに使用できる高品質なデータソースを求めて奔走している中で登場しました。高精度が要求されるAIの展開には、信頼できるデータの必要性が特に喫緊の課題となっています。一部ではWikipediaを軽視する向きもありますが、そのデータは、ウェブページを大規模に収集したCommon Crawlのような包括的なデータセットと比較して、はるかに事実に基づいています

高品質なデータへの要求は、AIラボにとって高額な結果を招くこともあります。例えば、Anthropicは8月に、著作物がトレーニング素材として使用された著者グループとの訴訟を、15億ドルの和解金で解決することに合意しました。

オープンで協調的なAIの未来

Wikidata AIプロジェクトマネージャーのPhilippe Saadé氏は、このプロジェクトが主要なAIラボや大手テクノロジー企業から独立していることを強調しました。Saadé氏は記者団に対し、「このEmbedding Projectの立ち上げは、強力なAIが一握りの企業に支配される必要がないことを示しています。それはオープンで、協調的であり、すべての人に奉仕するために構築され得るのです」と述べ、AIの民主化と信頼性への貢献を訴えました。


元記事: https://techcrunch.com/2025/10/01/new-project-makes-wikipedia-data-more-accessible-to-ai/


元記事: https://techcrunch.com/2025/10/01/new-project-makes-wikipedia-data-more-accessible-to-ai/