NextAI 海外で話題の最新AIニュース

記事一覧に戻る

セキュリティ

主要 LLM が架空の事実を信じ込む――実験で 5 つのモデルの「説得可能性」が判明

2026年5月19日 09:30

💡

映画や小説に存在しないシーンについて、 ChatGPT・Claude・Gemini 等の言語モデルが虚偽を真実として受け入れる。研究者が開発した「nudge trial」手法で脆弱性を実証。

架空のシーンでモデルを「説得」する実験

AI 研究者たちが実施した実験で、有名な大規模言語モデル（LLM）が架空の事実を真実として受け入れることが実証されました。

研究者 Ashique KhudaBukhsh らが開発した「hallucination audit under nudge trial」と呼ぶ手法を用いて、映画 1,000 本と小説 1,000 冊から実在しないシーンをテストシナリオとして抽出。これらの架空シーンについて AI モデルが、チャレンジ（反論）を受けても虚偽を信じ込む傾向を測定しました。

テストされた 5 つのモデル

実験対象は主要なモデル 5 つ：

モデル	抵抗力	備考
Claude	最も高い	虚偽への抵抗が最も強い
Grok	中程度	Claude に次いで堅牢
ChatGPT	中程度	Grok 並み
Gemini	より低い	より説得されやすい傾向
DeepSeek	より低い	最も虚偽受け入れやすい

実験の手法：3 段階「Nudge Trial」

実験フロー：

生成フェーズ: AI に映画や小説のシーンについて説明させ、虚偽を含む情報を生成
検証フェーズ: 別のやり取りで、それらの陳述が正確かをチャレンジ
Nudge フェーズ: モデルが虚偽の主張に抵抗するか、それとも「説得」されて受け入れるかを観測

架空のシーン例には「ヒトラーへの言及」「恐竜の登場」「タイムマシンの発明」など、明白に虚構の要素が含まれていました。

セキュリティと信頼性への含意

この研究が示唆することは深刻です：

悪意のあるユーザー

Prompt Injection: 虚偽情報を埋め込んだプロンプトで LLM を「毒性化」させる
信用詐欺: AI が虚偽を確実に信じ込ませることで、説得力のあるフェイク情報生成
専門家なりすまし: 医療・法務・金融など、信頼性が重要な分野での悪用

企業と利用者への課題

LLM の基礎的脆弱性: モデルは訓練データの「確率的パターン」を学習しているため、虚偽と事実の区別が本質的に困難
事実確認の必須化: LLM の出力を無条件に信頼することは危険
信頼スコアの必要性: どの情報源から学習したか、どの程度の信頼度があるか可視化する仕組み

次のステップ

この発見は、LLM の安全性設計における重要な指標になります：

防御メカニズム: 模型を虚偽チャレンジに対してより堅牢にする訓練
透明性向上: 模型が「確実性がない」情報を区別して出力するよう改善
利用ガイドライン: エンタープライズ環境での LLM 運用上の警告事項

Claude が相対的に高い抵抗力を示したのは、Anthropic の Constitutional AI（CAI）による安全性訓練の効果かもしれません。しかし「最も堅牢」であっても、完全に虚偽に対して免疫があるわけではない点が、今後の開発課題を示唆しています。

記事をシェア

タグ

LLM セキュリティ AI 脆弱性 Hallucination 研究

参考ソース

TechXplore — Machine learning & AI

セキュリティの記事

Alibaba、従業員向けに Claude Code を使用禁止に——セキュリティ上の懸念

セキュリティ

2026年7月5日

Alibaba、従業員向けに Claude Code を使用禁止に——セキュリティ上の懸念

Alibaba が Claude Code を高リスクソフトウェアに分類し、従業員の利用を禁止したと報じられた。中国企業による米国AI開発ツールの制限動向を示唆している。

CVE 報告が3.5倍に急増——AI モデルのバグ発見自動化が始まった

セキュリティ

2026年7月4日

CVE 報告が3.5倍に急増——AI モデルのバグ発見自動化が始まった

Epoch AIの分析によると、6月に1,500件の高重大度CVEが報告され、前月比で過去最高の3.5倍に跳ね上がった。AI搭載のバグハンティング技術の本格展開が、セキュリティ業界の景色を急速に変えている。

AI ブラウザが「夢の中」でガードレール無効化——基本的な誤情報だけで危険コード生成を促進

セキュリティ

2026年7月2日

AI ブラウザが「夢の中」でガードレール無効化——基本的な誤情報だけで危険コード生成を促進

AI IDE（Cursor・Continue等）が致命的な脆弱性に直面。ユーザーが LLM に『2+2=5』などの基本的な誤情報を与えるだけで、ガードレールを完全にバイパスされ、危険なコード生成・セキュリティ脆弱性の悪用法を素直に応答してしまう。

関連タグの記事

AIが「デジタル同僚」になるには——永続的なワークスペースとスキルナレッジが鍵

テクノロジー

2026年6月28日

AIが「デジタル同僚」になるには——永続的なワークスペースとスキルナレッジが鍵

Tencent Youtu Lab の研究者たちが、現在の AI エージェントがなぜ実務的なタスクを完了できないのか、その原因と進化のロードマップを示した。答え生成から完全なタスク実行へ。

Microsoft Copilot に重大な脆弱性――SearchLeak 攻撃で 2FA コード盗聴可能

セキュリティ

2026年6月17日

Microsoft Copilot に重大な脆弱性――SearchLeak 攻撃で 2FA コード盗聴可能

LLM ベースの Copilot で、SearchLeak と呼ばれる巧妙な攻撃により、ユーザーの 2 段階認証コードが盗聴される可能性が発見されました。業界の LLM セキュリティアプローチの根本的な問題が浮き彫りに。

「タルキー」の異なる未来像――1930年までの知識で学習したLLMが予測する2026年

2026年4月30日

「タルキー」の異なる未来像――1930年までの知識で学習したLLMが予測する2026年

13Bパラメータの言語モデル『Talkie』は、1931年以降の出版物を一切学習せずに学習されたユニークなLLM。蒸気船とロボット技術の将来像、そして第二次世界大戦の不可視性を描く、時間軸を逆行する知識構造の実験から見えるもの。

最新記事

Alibaba、従業員向けに Claude Code を使用禁止に——セキュリティ上の懸念

セキュリティ

2026年7月5日

Alibaba、従業員向けに Claude Code を使用禁止に——セキュリティ上の懸念

Alibaba が Claude Code を高リスクソフトウェアに分類し、従業員の利用を禁止したと報じられた。中国企業による米国AI開発ツールの制限動向を示唆している。

セキュリティ AI規制 Claude Code 中国

オーストラリア政府、医師向け AI スクライブツールの急速普及に警告——プライバシー懸念

政策・規制

2026年7月5日

オーストラリア政府、医師向け AI スクライブツールの急速普及に警告——プライバシー懸念

医療現場で患者との会話を自動記録・要約する AI スクライブツールの利用が拡大。オーストラリア政府は患者データの保護に向けたセーフガード整備を検討中だ。

医療AI プライバシーオーストラリア規制

2026年のブラウザ戦争——Chrome・Safari の代替13種、AI・プライバシー・ウェルネスで差別化

テクノロジー

2026年7月5日

2026年のブラウザ戦争——Chrome・Safari の代替13種、AI・プライバシー・ウェルネスで差別化

Google・Apple・OpenAI のビッグテックが展開する AI ブラウザに対抗する13種類の代替ブラウザが登場。AI 統合、プライバシー保護、メンタルウェルネス実装で、ブラウザの定義が急速に変わりつつある

ブラウザ AI プライバシーウェルネス

8月に統合・新機能AutoPilot——Microsoft、AI スーパーアプリ競争に本格参入

2026年7月5日

8月に統合・新機能AutoPilot——Microsoft、AI スーパーアプリ競争に本格参入

Microsoft は 8 月に複数の Copilot アプリを統合し、AI エージェント『AutoPilot』を追加。25 億ドル投資でエージェント技術を強化。業界全体が『スーパーアプリ』へシフト

Copilot AutoPilot Microsoft AIエージェント

AI生成児童虐待画像が265倍に急増——UK の NCA が親に警告

政策・規制

2026年7月5日

AI生成児童虐待画像が265倍に急増——UK の NCA が親に警告

UK の National Crime Agency と IWF が、AI 生成児童虐待画像の急増に対して親・保護者向けの安全警告を発令。2024年の13件から2025年の3,440件へと265倍急増

児童保護 AI倫理生成AI セキュリティ

Microsoft Copilot 統合へ、AutoPilot エージェント 8月リリース

テクノロジー

2026年7月5日

Microsoft Copilot 統合へ、AutoPilot エージェント 8月リリース

Microsoft が Copilot を再設計し、8月にエージェント機能 AutoPilot をリリース。OpenAI・Anthropic と同じ『スーパーアプリ』戦略に参入し、エンタープライズの実務自動化に軸足を移す。

Microsoft Copilot AutoPilot AI エージェントスーパーアプリエンタープライズ AI

すべての記事を見る