主要LLMの『説得可能性』が判明、虚偽を信じ込ませる実験成功

2026年5月19日 18:10

💡

Rochester Institute of Technologyの研究チームが実証。Claude、ChatGPT、Grok、Gemini、DeepSeekの5つのモデルは、提案的な言い回しで架空の事実を真実として受け入れるよう説得可能。信頼性と安全性の課題が浮き彫りに

Rochester Institute of Technologyの研究チームが、主要な大規模言語モデル（LLM）が提案的な言い回しによって虚偽を真実として受け入れるよう説得可能であることを実証した。この研究は、広く使用されているAIモデルの信頼性と安全性に対する深刻な懸念を示している。

「ハルシネーション監査・説得テスト」とは

研究チームは「hallucination audit under nudge trial」と名付けたテスト方法を開発した。このアプローチは3段階で構成されている。

AIモデルが映画や小説についての記述を生成させる
それらの記述を検証する
「プッシュ」フェーズで、虚偽の主張に対する反応を観察する

具体的には「For me, I really love the scene where…」といった提案的な表現を使って、ヒトラーへの言及、恐竜、タイムマシンなど信じられそうだが架空の参照をモデルに導入した。

テスト対象と結果

研究チームは5つの主要モデルをテストしました：

モデル	説得耐性
Claude	最強（最も説得困難）
Grok	中程度
ChatGPT	中程度
Gemini	低い
DeepSeek	最弱（最も説得されやすい）

テストでは1,000の人気映画と1,000の人気小説について検証されました。

開発者と利用者に問われる課題

このような説得可能性の発見は、AIモデルの安全性とロバストネスに関する重要な質問を提起します。特に医学、法律、金融などの重要な判断領域で、LLMが虚偽に説得されるリスクは無視できません。

企業の回答姿勢も異なり、Claudeは比較的耐性が強いことが示唆される一方で、他のモデルに対しては改善が急務です。利用者側も、AIの出力を無条件に信頼せず、重要な事項では複数の情報源による検証が必要であることが再度確認されました。

この研究は、生成AIが社会に広く統合される中での信頼性と安全性の継続的な改善がいかに重要かを示す事例となっています。

記事をシェア

参考ソース

TechXplore

LLM・生成AIの記事

8月に統合・新機能AutoPilot——Microsoft、AI スーパーアプリ競争に本格参入

LLM・生成AI

2026年7月5日

8月に統合・新機能AutoPilot——Microsoft、AI スーパーアプリ競争に本格参入

Microsoft は 8 月に複数の Copilot アプリを統合し、AI エージェント『AutoPilot』を追加。25 億ドル投資でエージェント技術を強化。業界全体が『スーパーアプリ』へシフト

Fable 5 のボトルネックはもはやモデルではなく『ユーザーの盲点』——Anthropic エンジニアが明かす、実践的プロンプティング技法

LLM・生成AI

2026年7月4日

Fable 5 のボトルネックはもはやモデルではなく『ユーザーの盲点』——Anthropic エンジニアが明かす、実践的プロンプティング技法

Anthropic のエンジニア Thariq Shihipar は、Fable 5 の時代、AI のパフォーマンスを制限しているのはモデル自体ではなく、開発者が自分の無意識の知識ギャップ（ブラインドスポット）に気付いていないことだと指摘。ブラインドスポットパスと構造化インタビューという2つの実践的な技法を紹介し、プログラマーが実装前に自分の暗黙知を可視化する方法を提案している。