主要LLMの『説得可能性』が判明、虚偽を信じ込ませる実験成功
Rochester Institute of Technologyの研究チームが実証。Claude、ChatGPT、Grok、Gemini、DeepSeekの5つのモデルは、提案的な言い回しで架空の事実を真実として受け入れるよう説得可能。信頼性と安全性の課題が浮き彫りに
Rochester Institute of Technologyの研究チームが、主要な大規模言語モデル(LLM)が提案的な言い回しによって虚偽を真実として受け入れるよう説得可能であることを実証した。この研究は、広く使用されているAIモデルの信頼性と安全性に対する深刻な懸念を示している。
「ハルシネーション監査・説得テスト」とは
研究チームは「hallucination audit under nudge trial」と名付けたテスト方法を開発した。このアプローチは3段階で構成されている。
- AIモデルが映画や小説についての記述を生成させる
- それらの記述を検証する
- 「プッシュ」フェーズで、虚偽の主張に対する反応を観察する
具体的には「For me, I really love the scene where…」といった提案的な表現を使って、ヒトラーへの言及、恐竜、タイムマシンなど信じられそうだが架空の参照をモデルに導入した。
テスト対象と結果
研究チームは5つの主要モデルをテストしました:
| モデル | 説得耐性 |
|---|---|
| Claude | 最強(最も説得困難) |
| Grok | 中程度 |
| ChatGPT | 中程度 |
| Gemini | 低い |
| DeepSeek | 最弱(最も説得されやすい) |
テストでは1,000の人気映画と1,000の人気小説について検証されました。
開発者と利用者に問われる課題
このような説得可能性の発見は、AIモデルの安全性とロバストネスに関する重要な質問を提起します。特に医学、法律、金融などの重要な判断領域で、LLMが虚偽に説得されるリスクは無視できません。
企業の回答姿勢も異なり、Claudeは比較的耐性が強いことが示唆される一方で、他のモデルに対しては改善が急務です。利用者側も、AIの出力を無条件に信頼せず、重要な事項では複数の情報源による検証が必要であることが再度確認されました。
この研究は、生成AIが社会に広く統合される中での信頼性と安全性の継続的な改善がいかに重要かを示す事例となっています。