AI モデルは正答するも出典が間違い――ペキン大が 'CiteVQA' ベンチマークで新課題を指摘
『属性幻覚』と呼ぶ現象が AI モデルで蔓延。正しい答えを出すが、その根拠となるテキストが実際のドキュメント内に存在しない。ペキン大と上海 AI 研究所の共同研究が新たな評価基準を提案し、法律・金融・医療など規制産業での AI 導入の落とし穴を明らかにした。
「正しい答え」と「正しい根拠」は別物――AI の回答品質にまつわる、新たな落とし穴が浮き彫りになった。
ペキン大学と上海人工知能研究所の研究チームが発表した新しい評価ベンチマーク『CiteVQA』は、大規模言語モデル(LLM)やマルチモーダルモデルが陥りやすい「属性幻覚(Attribution Hallucination)」という課題に焦点を当てている。GPT-5.4 や Gemini-3.1-Pro といった最新モデルでさえ、正答率は高いのに、その答えの根拠となるテキストは文書内に存在しないケースが多数存在する。この矛盾が、AI の規制産業での運用を危険にさらしている。
属性幻覚とは何か
従来の文書質問応答(DocVQA)ベンチマークでは、AI モデルが正答しているかどうかだけが採点対象だった。しかし現実の応用では、「なぜそう言えるのか」という説明責任が重要だ。特に法律や金融監査、医療診断では、答えの「根拠」が透明性と信頼性の生命線となる。
CiteVQA は 711 個の PDF ドキュメントと 1,897 の質問で構成される新しい評価セット。厳密な属性精度(SAA: Strict Attribution Accuracy) という指標を導入し、「正答し、かつその根拠がドキュメント内に実際に存在する」場合のみスコアを与える仕組みにした。
最新モデルの意外な弱点
テスト結果は衝撃的だ:
| モデル | 全体精度 | 厳密な属性精度 |
|---|---|---|
| Gemini-3.1-Pro-Preview | 高い | 76/100 |
| GPT-5.4 | 87.1 | 59/100 |
| Qwen-VL-Plus | 中程度 | 22.5/100 |
GPT-5.4 は全体精度で 87.1% を達成しているのに対し、正確な引用を伴う精度は 59% にとどまる。つまり全体の 28 ポイント分は「根拠のない正答」である可能性が高い。
オープンソースモデルはさらに劣悪で、多くが 10 以下のスコアに留まっている。
規制産業への深刻な脅威
この課題が最も深刻なのは、トレーサビリティが答えの信頼性そのものの分野だ。
- 法律 :判例や条文を引用して法的判断を示す必要がある
- 金融監査 :監査報告書に証拠根拠を示さねばならない
- 医療 :診断の根拠となる診療ガイドラインや検査結果を参照できなければ医療事故につながる
AI が「正しい答え」を与えていても、その根拠を辿れなければ、人間の専門家は判断を検証できない。結果として、「AI が言ったから」という根拠で重大な決定がなされるリスクが高まる。
今後の展望
この研究は、AI 評価の枠組みそのものを問い直す契機になる。単に「正答率」で AI を測るのではなく、「説明責任の精度」を同等の重みで評価する方向へ業界を導く可能性がある。
CiteVQA のデータセットは公開予定とのこと。今後、LLM 開発者はこのベンチマークに基づいて、より信頼性の高い引用能力を持つモデルへの改善を迫られることになるだろう。規制産業への AI 導入を本格化させるなら、避けては通れない課題である。