主要 LLM が架空の事実を信じ込む――実験で 5 つのモデルの「説得可能性」が判明
映画や小説に存在しないシーンについて、 ChatGPT・Claude・Gemini 等の言語モデルが虚偽を真実として受け入れる。研究者が開発した「nudge trial」手法で脆弱性を実証。
架空のシーンでモデルを「説得」する実験
AI 研究者たちが実施した実験で、有名な大規模言語モデル(LLM)が架空の事実を真実として受け入れることが実証されました。
研究者 Ashique KhudaBukhsh らが開発した「hallucination audit under nudge trial」と呼ぶ手法を用いて、映画 1,000 本と小説 1,000 冊から実在しないシーンをテストシナリオとして抽出。これらの架空シーンについて AI モデルが、チャレンジ(反論)を受けても虚偽を信じ込む傾向を測定しました。
テストされた 5 つのモデル
実験対象は主要なモデル 5 つ:
| モデル | 抵抗力 | 備考 |
|---|---|---|
| Claude | 最も高い | 虚偽への抵抗が最も強い |
| Grok | 中程度 | Claude に次いで堅牢 |
| ChatGPT | 中程度 | Grok 並み |
| Gemini | より低い | より説得されやすい傾向 |
| DeepSeek | より低い | 最も虚偽受け入れやすい |
実験の手法:3 段階「Nudge Trial」
実験フロー:
- 生成フェーズ: AI に映画や小説のシーンについて説明させ、虚偽を含む情報を生成
- 検証フェーズ: 別のやり取りで、それらの陳述が正確かをチャレンジ
- Nudge フェーズ: モデルが虚偽の主張に抵抗するか、それとも「説得」されて受け入れるかを観測
架空のシーン例には「ヒトラーへの言及」「恐竜の登場」「タイムマシンの発明」など、明白に虚構の要素が含まれていました。
セキュリティと信頼性への含意
この研究が示唆することは深刻です:
悪意のあるユーザー
- Prompt Injection: 虚偽情報を埋め込んだプロンプトで LLM を「毒性化」させる
- 信用詐欺: AI が虚偽を確実に信じ込ませることで、説得力のあるフェイク情報生成
- 専門家なりすまし: 医療・法務・金融など、信頼性が重要な分野での悪用
企業と利用者への課題
- LLM の基礎的脆弱性: モデルは訓練データの「確率的パターン」を学習しているため、虚偽と事実の区別が本質的に困難
- 事実確認の必須化: LLM の出力を無条件に信頼することは危険
- 信頼スコアの必要性: どの情報源から学習したか、どの程度の信頼度があるか可視化する仕組み
次のステップ
この発見は、LLM の安全性設計における重要な指標になります:
- 防御メカニズム: 模型を虚偽チャレンジに対してより堅牢にする訓練
- 透明性向上: 模型が「確実性がない」情報を区別して出力するよう改善
- 利用ガイドライン: エンタープライズ環境での LLM 運用上の警告事項
Claude が相対的に高い抵抗力を示したのは、Anthropic の Constitutional AI(CAI)による安全性訓練の効果かもしれません。しかし「最も堅牢」であっても、完全に虚偽に対して免疫があるわけではない点が、今後の開発課題を示唆しています。