ホワイトハウスが Anthropic に『全ジェイルブレイク防止』を要求——Fable 5 再リリースの条件、セキュリティ専門家は『不可能』と警告

2026年6月18日 02:12 更新: 2026年7月1日 10:15

💡

トランプ政権がAnthropic に対し、Fable 5 の再リリースの条件として『すべてのジェイルブレイクを防止すること』を要求。しかしセキュリティ専門家は、プロンプトインジェクション攻撃の完全防止は技術的に不可能だと警告し、政府の要件が実現不可能であることを指摘。

再リリース交渉で明らかになる「実現不可能な要件」

トランプ政権の高官が WIRED の取材に対し、以下を明言しました：「Anthropic が Fable 5 を再度リリースしたいなら、モデルのセーフガード（安全対策）が回避できない状態であることを確実にする必要がある」。

言い換えれば、政府は先月の停止命令から一歩引いて、条件付きでの再リリースを許可する方向性を示唆しています。しかしその「条件」が、技術的現実と大きく乖離していることが明らかになってきました。

セキュリティ専門家：「完全防止は技術的に不可能」

複数のセキュリティ研究者がこの政府要件に対して警告しています：

「プロンプトインジェクション攻撃（ジェイルブレイク）を完全に防ぐ技術は、現在どのモデルにも存在しない」

政府要件が「すべてのジェイルブレイクを防止する」ことであるなら、それは次の理由で不可能です：

LLM に構造的に内在する脆弱性

入力と指示の区別がない
- LLM は本質的に「テキスト予測マシン」として訓練されており、ユーザー入力とシステムプロンプトを厳密に区別できない設計
攻撃方法の無限の可能性
- プロンプトエンジニアリング手法は日々進化し、事前にあらゆるジェイルブレイク手法を防ぐことは不可能
- セキュリティ研究者でさえ、新しい攻撃方法を継続的に発見している
安全性と有用性のトレードオフ
- 完全に「安全」にしようとすれば、モデルはほぼ機能しなくなる
- 有用性を保ちながら安全性を確保することと、「完全な安全性」の両立は技術的に矛盾

業界全体が示唆する「現実的な代替案」

Fable 5 の停止命令時点で、100 人超のセキュリティ専門家（OpenAI エンジニア、Google セキュリティ責任者ら含む）が連署した異議書に署名しています。彼らが提案する代替案は：

完全防止ではなくリスク制御：段階的な防御と監視の強化
事前対話プロセス：政府機関との段階的な承認手続き
研究投資：学術界によるプロンプトインジェクション防御の進展

政府と業界の「言語の不一致」

この対立の根底には、政府とセキュリティ業界が共有していない 技術的な理解の差 があります。

政府高官：「Anthropic は判断のたびに誤った選択をした。別の言語を話しているようだ」

これは、政府側がプロンプトインジェクション攻撃の本質（LLM の構造的限界）を十分に理解していないことを示唆しています。

Anthropic の立場

Anthropic は Fable 5 に以下の複層防御を実装しています：

独立分類器システム：モデル出力を並行チェック
Cyber Verification Program：セキュリティ研究者への信頼できるアクセス
キーワード・文脈マッチング：危険なトピックの事前識別

しかし同社は明言：「狭い潜在的ジェイルブレイク 1 つを理由に、数億人が使うモデルの国際リリース全体を停止すべきだとは考えない」

規制と技術現実の衝突

本件は AI 規制に関わる根本的な問題を露呈しています：

「政策立案者が技術的現実を理解せず、実現不可能な要件を企業に強制できるのか」

かりに Anthropic が政府の要件を呑むなら、他のすべての AI 企業も同じ要件を突きつけられることになります。その結果、米国の AI 企業が競争力を失う一方で、規制の及ばない中国・欧州のモデルが相対的に優位に立つ可能性も指摘されています。

今後は Anthropic とホワイトハウスの交渉次第で、Fable 5 の国際リリースが再度進展するのか、あるいは停止が継続するのかが注視されます。

アップデート（2026年6月21日）

政府がさらに厳しい行動に——削除命令に発展

6月18日の「再リリース条件」の報道から3日後、トランプ政権は Fable 5 と Mythos 5 をオンラインから削除するよう命令 に進展させました。この決定は、Amazon CEO Andy Jassy がホワイトハウスに対し、Amazon の研究者が Fable 5 のセーフガードを回避する方法を発見したと報告したことが直接の契機となっています。

セキュリティ専門家からの強い反発

この削除命令に対し、複数のサイバーセキュリティ専門家が公開書簡に署名し、トランプ大統領に命令の撤回を求めています。彼らの主張は：

「Anthropic からこれらの高度なサイバーセキュリティ機能を削除することは実際に危険である」
同様のジェイルブレイク脆弱性は他のすべての AI モデルにも存在する可能性があるにもかかわらず、Anthropic のみを対象にするのは不公正

この指摘は、削除命令の前提となっている「Fable 5 特有の問題」という仮定に異議を唱えるもので、業界全体の技術理解が政府の判断と大きく乖離していることを示しています。

アップデート（2026年7月1日）

Fable 5 が 2 週間の禁止を経て復帰——新型安全フィルターで 99% の攻撃をブロック

トランプ政権による削除命令から 2 週間後、Anthropic は Fable 5 と Mythos 5 の復帰を発表しました。

Amazon 研究者が発見した具体的なジェイルブレイク

Amazon の研究チームが発見した脆弱性の詳細が判明しました。この jailbreak により、モデルのセーフガードを回避し、複数のソフトウェア脆弱性の特定と利用方法を示すコード生成が可能になっていました。

Anthropic の実装対応：99% 以上のブロック率

Anthropic は以下の対策を実装して復帰を実現しました：

新型安全フィルター：Amazon が発見した攻撃手法を 99% 以上ブロック
展開方法：Claude Platform、Claude.ai、Claude Code を通じて段階的に復帰

トレードオフと継続的対応

新型フィルターの実装には、セキュリティ強化と有用性のバランスの問題が浮かび上がりました：

改善点：攻撃手法の高いブロック率（99%+）を達成
課題：同フィルターが無害なコーディング関連のリクエストも一定割合で誤りブロック（false positive）

この結果は、前述した「政府の『完全防止』要件が技術的に困難」という専門家の警告を事実で示すものとなりました。Anthropic の対応は、「完全なジェイルブレイク防止」ではなく「リスク制御と監視の強化」という現実的なアプローチをとっています。

復帰の条件と意義

政府との交渉の結果、Fable 5 は国際的に復帰しましたが、Mythos 5 は引き続き米国の組織に限定されています。この決定は、政府の「実現不可能な要件」と企業の「実装可能な対策」の間で、一定の妥協点が見出されたことを示唆しています。

ホワイトハウスが Anthropic に『全ジェイルブレイク防止』を要求——Fable 5 再リリースの条件、セキュリティ専門家は『不可能』と警告

再リリース交渉で明らかになる「実現不可能な要件」