AIが学術論文に「幻覚引用」を生成:GPTZeroが警告
AI検出スタートアップのGPTZeroは、権威あるAI会議「NeurIPS(Neural Information Processing Systems)」に採択された論文から、AIが生成したと見られる「幻覚引用(hallucinated citations)」を多数発見したと発表しました。これは、AI研究の最前線で起きている衝撃的な事実であり、AI生成コンテンツの信頼性について大きな警鐘を鳴らしています。
GPTZeroが昨年12月に開催されたNeurIPSに採択された全4,841本の論文をスキャンしたところ、51本の論文から合計100件の幻覚引用を特定したとTechCrunchに語っています。
検出された幻覚引用の現状とNeurIPSの見解
GPTZeroの調査結果は注目に値しますが、いくつかのニュアンスも指摘されています。
- 全引用数から見ると、100件の幻覚引用は統計的に有意な数ではない。
- 不正確な引用が、論文の研究内容そのものを無効にするものではない。NeurIPSもFortune紙に対し、「たとえ1.1%の論文にLLMの使用による不正確な引用が1件以上あったとしても、論文の内容そのものは必ずしも無効化されるわけではない」とコメント。
しかし、偽造された引用が決して「何でもない」わけではありません。NeurIPSは「機械学習と人工知能における厳格な学術出版」を誇っており、各論文は複数の査読者によって厳しく審査され、幻覚を指摘するよう指示されています。引用は研究者の影響力を示す重要なキャリア評価指標でもあるため、AIによる偽造は、その価値を希薄化させる懸念があります。
幻覚引用が生まれる背景と査読体制の課題
査読者がこれらのAIが生成した引用を見落とすことは、その膨大な量から考えると無理もないとGPTZeroは指摘しています。GPTZeroは、この問題の背景には、「submission tsunami(投稿論文の殺到)」によって「これらの会議の査読体制が限界まで追い詰められている」ことがあると報告書で述べています。実際に、2025年5月には「The AI Conference Peer Review Crisis」という論文が発表され、NeurIPSを含む主要な会議における同様の問題が議論されています。
AI利用における皮肉な教訓
この一件が突きつける最大の皮肉な教訓は、「評判をかけた世界トップレベルのAI専門家でさえ、LLMの使用における詳細な正確性を完全に保証できないのであれば、我々一般ユーザーはどうなるのか?」という点にあります。
この事態は、AIツールの利用における批判的思考と情報の検証の重要性を改めて浮き彫りにしています。AIが生成する情報を鵜呑みにせず、常にその正確性を確認する姿勢が、専門家のみならず、あらゆるAIユーザーに求められていると言えるでしょう。
