政府が要求する「ハック不能なLLM」は存在しない

6月12日、トランプ政権は Anthropic に対し、Claude Fable 5Mythos 5 の全世界での提供停止を命令しました。公式の理由は「ジェイルブレイク脆弱性の存在」ですが、その背後には技術的に実現不可能な要件が隠されていることが判明しています。

政府が求めたのは、国際リリース前にモデルが「ハックされない」状態であることを保証すること。しかし OpenAI を含む 100人以上のセキュリティ専門家が「プロンプトインジェクション攻撃を完全に防ぐ技術は現時点で存在しない」と反対書簡で指摘しており、この要件自体が実現不可能であることが業界全体の認識となっています。

「狭いジェイルブレイク」から全モデル停止へ

政府が提示した脆弱性の実態

政府がAnthropic に警告した「ジェイルブレイク」は、以下の特性を持つと報じられています:

  • 狭い・限定的 — あらゆる入力で再現可能ではなく、特定の条件下でのみ発動
  • 普遍的でない — 同様の能力は OpenAI の GPT-5.5 など他のモデルでも利用可能
  • 防御目的での活用が前提 — セキュリティ研究者が脆弱性を発見する際に日常的に使用する手法と同等

Anthropic の公式反論は明確です:「狭い潜在的ジェイルブレイクを理由に、数億人に商用展開されたモデルをリコールすべきだとは同意しない」。

技術的なギャップ:政府と業界の「別言語」

THE DECODER の取材によれば、政府関係者とAnthropic の対話は決裂の危機にあります。政府高官は「Anthropic は判断の岐路に立つたびに誤った選択をした。まるで別の言語を話しているようだ」とコメント。

一方、Anthropic は政府が プロンプトインジェクション攻撃の本質を理解していない と指摘しています。

プロンプトインジェクション:完全防止は不可能

LLMに構造的に内在する脆弱性

プロンプトインジェクション攻撃とは、悪意ある入力を通じてモデルの安全制約を回避させる手法です。以下の理由で完全な防止は不可能です:

  1. モデルの訓練方法 — テキスト予測タスクで訓練されたLLMは、入力と指示の区別を厳密に行えない構造設計
  2. ユーザー入力の無限の組み合わせ — あらゆる潜在的攻撃パターンを事前に防ぎきることは不可能
  3. 安全性と有用性のトレードオフ — 完全に「安全」にすれば、モデルはほぼ機能しない

OpenAI の公式見解(THE DECODER が引用)は「プロンプトインジェクション攻撃などのハッキング手法は、完全には解決されない 可能性がある」。この慎重な言い方が、業界全体の現実を示しています。

Anthropicの安全策——実装されているが限界あり

多層防御の構造

Anthropic が Fable 5 に実装した安全策:

  • 独立した分類器システム — モデルと並行して危険な出力を検出・フィルタ
  • Cyber Verification Program — セキュリティ研究者には制限を緩和(OpenAI の「Trusted Access for Cyber」に相当)
  • キーワード・文脈マッチング — 危険なトピックを事前に識別

しかし実装には限界があります。セキュリティ研究者 Valentina Palmiotti の実体験として報告されているのは、「サイバーセキュリティ関連と接線的にでも関係する要求はすべて拒否される。無害なタスクでさえ」という過度な制限です。

100人超のセキュリティ専門家が反対

オープンレターの署名者

Fable 5 の国際リリース支持と輸出規制解除を求めるレターには、以下の著名人が署名しています:

  • Alex Stamos(元 Facebook CSO、現 Stanford)
  • Katie Moussouris(Luta Security CEO、バグバウンティ界の第一人者)
  • Rachel Tobac(社会工学・セキュリティ主義者)
  • Dan Lorenc(CISO、サプライチェーンセキュリティ専門家)
  • その他 100名超

専門家の主張

Anthropic の Fable 5 はセキュリティ脆弱性発見において優れているが、競合と比べて特別でも固有でもない

さらに、専門家の指摘は規制の本質的な問題を突いています:

  • モデルの存在ではなく、悪用の意図とアクセス経路 が問題
  • 輸出規制は米国の防御的サイバーセキュリティ研究者の能力を制限する
  • 競合国(中国・欧州)のモデルに有利なだけ

地政学的な波及効果

Amazon が規制を加速した可能性

TechCrunch の報道によれば、Amazon CEO Andy Jassy を含む複数の企業が政府へセキュリティリスク報告を行い、今回の規制強化のきっかけとなったとされています。Anthropic の主要出資者である Amazon が規制を誘発した構図は、業界内でも物議を醸しています。

各地域への影響

インド — 政府が「アメリカの最先端モデルへのアクセス喪失」に対抗し、オープンソース AI や独自インフラへの投資を加速。Sridhar Vembu(Zoho CEO)は「インド・中国のオープンソースモデルへの転換」を提唱。

欧州 — Fable 5・Mythos 5 停止が「AI 主権」論争を再燃。欧州委員会が影響を評価中だが、独自 AI インフラ構築には「計算能力・エネルギー・競争力ある事業者」という根本的な制約が存在。

政策と技術現実のギャップ

根本的な問題

政府規制が機能するためには、政策立案者が技術的現実を理解する 必要があります。しかし本事案は以下を示しています:

  1. 定義の欠落 — 「ハック不能」の技術的定義・測定基準が明示されていない
  2. 実現可能性の無視 — 業界全体で不可能とされている要件を単一企業に強制
  3. 非対称性 — 米国企業のみ規制して、中国・欧州モデルには無力

示唆される代替案

業界と専門家が示唆する方向性:

  • 完全防止ではなくリスク制御 — Cyber Verification Program の拡張
  • 事前対話プロセス — 政府機関との段階的な承認手続き
  • 研究投資 — プロンプトインジェクション防御の学術的進展