AI モデルは正答するも出典が間違い――ペキン大が 'CiteVQA' ベンチマークで新課題を指摘

2026年5月25日 09:15

💡

『属性幻覚』と呼ぶ現象が AI モデルで蔓延。正しい答えを出すが、その根拠となるテキストが実際のドキュメント内に存在しない。ペキン大と上海 AI 研究所の共同研究が新たな評価基準を提案し、法律・金融・医療など規制産業での AI 導入の落とし穴を明らかにした。

「正しい答え」と「正しい根拠」は別物――AI の回答品質にまつわる、新たな落とし穴が浮き彫りになった。

ペキン大学と上海人工知能研究所の研究チームが発表した新しい評価ベンチマーク『CiteVQA』は、大規模言語モデル（LLM）やマルチモーダルモデルが陥りやすい「属性幻覚（Attribution Hallucination）」という課題に焦点を当てている。GPT-5.4 や Gemini-3.1-Pro といった最新モデルでさえ、正答率は高いのに、その答えの根拠となるテキストは文書内に存在しないケースが多数存在する。この矛盾が、AI の規制産業での運用を危険にさらしている。

属性幻覚とは何か

従来の文書質問応答（DocVQA）ベンチマークでは、AI モデルが正答しているかどうかだけが採点対象だった。しかし現実の応用では、「なぜそう言えるのか」という説明責任が重要だ。特に法律や金融監査、医療診断では、答えの「根拠」が透明性と信頼性の生命線となる。

CiteVQA は 711 個の PDF ドキュメントと 1,897 の質問で構成される新しい評価セット。厳密な属性精度（SAA: Strict Attribution Accuracy） という指標を導入し、「正答し、かつその根拠がドキュメント内に実際に存在する」場合のみスコアを与える仕組みにした。

モデル	全体精度	厳密な属性精度
Gemini-3.1-Pro-Preview	高い	76/100
GPT-5.4	87.1	59/100
Qwen-VL-Plus	中程度	22.5/100

規制産業への深刻な脅威

この課題が最も深刻なのは、トレーサビリティが答えの信頼性そのものの分野だ。

法律：判例や条文を引用して法的判断を示す必要がある
金融監査 ：監査報告書に証拠根拠を示さねばならない
医療：診断の根拠となる診療ガイドラインや検査結果を参照できなければ医療事故につながる

AI が「正しい答え」を与えていても、その根拠を辿れなければ、人間の専門家は判断を検証できない。結果として、「AI が言ったから」という根拠で重大な決定がなされるリスクが高まる。

今後の展望

この研究は、AI 評価の枠組みそのものを問い直す契機になる。単に「正答率」で AI を測るのではなく、「説明責任の精度」を同等の重みで評価する方向へ業界を導く可能性がある。

CiteVQA のデータセットは公開予定とのこと。今後、LLM 開発者はこのベンチマークに基づいて、より信頼性の高い引用能力を持つモデルへの改善を迫られることになるだろう。規制産業への AI 導入を本格化させるなら、避けては通れない課題である。

記事をシェア

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

OpenAI の AI が全 5 問制覇、AtCoder World Tour で人間全員を上回る

LLM・生成AI

2026年7月9日

OpenAI の AI が全 5 問制覇、AtCoder World Tour で人間全員を上回る

OpenAI が 2026 年 AtCoder World Tour Finals のアルゴリズム部門で人間の全競技者を圧倒。8300ポイントで優勝し、通常以上の難易度を持つ問題 D・E も含めて全問題を解きました。6 ヶ月前には解けなかった問題を一夜にして制覇する AI の進化速度を示す快挙です。

MiniMax、2.7兆パラメータのオープンソース LLM を2026年内に公開予定。中国発大規模モデルの新局面

LLM・生成AI

2026年7月9日

MiniMax、2.7兆パラメータのオープンソース LLM を2026年内に公開予定。中国発大規模モデルの新局面

中国の AI スタートアップ MiniMax が、2.7 兆パラメータの大規模言語モデルをオープンソース化することを発表。現在のフラッグシップモデル M3（4,280 億パラメータ）の 6 倍超となる本モデルは、2026 年内のリリースを予定。複雑な推論・多段階指示タスクでの性能向上が期待される一方、中国政府の規制強化が展開に影響する可能性もあります。

Grok 4.5 一般公開、Cursor データで訓練も『自己申告ベンチマーク』に懐疑の声

LLM・生成AI

更新 2026年7月9日

Grok 4.5 一般公開、Cursor データで訓練も『自己申告ベンチマーク』に懐疑の声

SpaceXAI（旧xAI）が Grok 4.5 を一般公開しました。Cursor の実開発セッションを学習に取り込み、Harvey 法律ベンチマークで1位を獲得。価格は入力$2/出力$6（100万トークンあたり）と Opus 4.8 の半分以下ですが、独立系ベンチマークでの検証はまだなく、Cursor ユーザーのコードが無断で学習に使われた可能性も指摘されています。

Anthropic が AI 安全性で業界トップ、それでも C+ の深刻な現実

Future of Life Institute が 9 つの主要 AI 企業を安全性で評価。Anthropic が最高スコア（C+）を獲得しながらも、業界全体で『存在的リスク』への対応が不十分。9 企業すべてが A 評価を取得できず、AI 規制・監視の課題が浮き彫りに。

Anthropic が Claude の内部思考を可視化、『J-Lens』で欺瞞検出率 87% 向上

LLM・生成AI

2026年7月8日

Anthropic が Claude の内部思考を可視化、『J-Lens』で欺瞞検出率 87% 向上

Anthropic は言語モデルの内部ワーキングメモリ『J-Space』を分析する新ツール『J-Lens』を発表。Claude の隠れた思考プロセスを可視化でき、欺瞞や不正な意図を事前に検出できると報告した。

AI がソーシャルメディアで隠れた意見操作——Oxford 研究が規制の盲点を指摘

セキュリティ

2026年7月6日

AI がソーシャルメディアで隠れた意見操作——Oxford 研究が規制の盲点を指摘

Oxford Internet Institute とドイツの研究機関が、LLM がソーシャルメディア投稿の政治的立場を体系的に変えることを発見。EU 規制では対応外の微妙な操作が、数百万人の世論を徐々に影響。

Character.ai がドラマ制作に参入、ユーザーは登場キャラと会話・ロールプレイが可能

AI チャットプラットフォーム Character.ai が新サービス「マイクロドラマ」を開始。『Last Summer』『The Nighttime Game』『Eden Fall』の3シリーズをリリース。ユーザーは作品を鑑賞するだけでなく、キャラクターに質問したり、ストーリーを分岐させたりできる新体験を提供。

Character.ai AI ドラマエンタメストーリーテリング

LLM・生成AI

2026年7月9日

OpenAI の AI が全 5 問制覇、AtCoder World Tour で人間全員を上回る

OpenAI GPT アルゴリズム競技プログラミング AI性能

AI スタートアップが加速度的成長——Mercor が $20B ARR、Anthropic は $470B 走行率

ビジネス

2026年7月9日

AI スタートアップが加速度的成長——Mercor が $20B ARR、Anthropic は $470B 走行率

Mercor、Anthropic、Sierra など複数の AI スタートアップが歴史的なペースで収益を拡大。わずか数ヶ月で 10 倍の成長を遂行する企業も現れ、市場全体の爆発的需要を示唆している。

スタートアップ AI ビジネス成長 Mercor Anthropic

Meta がカナダに $9.1B の大型 AI データセンター投資——北米外で最大規模

ビジネス

2026年7月9日

Meta がカナダに $9.1B の大型 AI データセンター投資——北米外で最大規模

Meta は Alberta の Sturgeon County に北米外最大となる AI データセンターを建設することを発表。$9.1B の投資と独立した 932MW の天然ガス発電所により、AI インフラの地政学的な分散戦略が加速する。

Meta AI AIインフラカナダ投資動向

Google Photos の「Video Remix」で動画が AI 編集。背景置き換え・映画的リライティングが数タップで

テクノロジー

2026年7月9日

Google Photos の「Video Remix」で動画が AI 編集。背景置き換え・映画的リライティングが数タップで

Google が Google Photos に新機能「Video Remix」を追加。AI を使って暗い動画を自動で明るくする映画的リライティング、背景の置き換え、アートスタイルの適用など、プロ級の編集を数タップで実現できます。7 月 8 日から Google AI Plus・Pro・Ultra ユーザー向けに段階的に展開開始。日本を含む 14 地域で利用可能。

Google Google Photos AI 動画編集 Gemini 動画クリエイション

LLM・生成AI

2026年7月9日

MiniMax、2.7兆パラメータのオープンソース LLM を2026年内に公開予定。中国発大規模モデルの新局面

MiniMax オープンソース LLM 中国AI 大規模言語モデル

すべての記事を見る

AI モデルは正答するも出典が間違い――ペキン大が 'CiteVQA' ベンチマークで新課題を指摘

属性幻覚とは何か

最新モデルの意外な弱点

規制産業への深刻な脅威

今後の展望

記事をシェア

タグ

参考ソース

Microsoft Copilot のデフォルト AI、同じデータから国別ステレオタイプを捏造——データ分析の致命的な落とし穴

ByteDance の研究が長文書処理の訓練方法を刷新、QA学習が転記よりも5～6ポイント効率化

AI モデルは正答するも出典が間違い――ペキン大が 'CiteVQA' ベンチマークで新課題を指摘

属性幻覚とは何か

最新モデルの意外な弱点

規制産業への深刻な脅威

今後の展望

記事をシェア

タグ

参考ソース

Microsoft Copilot のデフォルト AI、同じデータから国別ステレオタイプを捏造——データ分析の致命的な落とし穴

ByteDance の研究が長文書処理の訓練方法を刷新、QA学習が転記よりも5～6ポイント効率化

LLM・生成AIの記事

関連タグの記事

最新記事