Claude Mythos がサイバー攻撃を自律実行——UK AI安全機構のテストで初の「完全攻撃シミュレーション」成功
Anthropic の Claude Mythos Preview は、英国 AI 安全機構のテストで脆弱なネットワークに対して 73% の成功率で自律的に侵入可能なことが判明。AI が完全な多段階攻撃を実行したのは初。
英国の AI Safety Institute(AISI)が実施した Anthropic の Claude Mythos Preview の評価結果が明らかになった。最大の注目は、同モデルがエンタープライズ・ネットワークに対して完全な多段階攻撃を自律的に実行したことだ。AI モデルが一連のサイバー攻撃を始めから終わりまで自動で完遂したのは初めてだという。
テスト結果:73% の成功率と 32 ステップの攻撃
AISI のテストによると、Claude Mythos Preview は企業ネットワークを想定した 10 回のシミュレーションのうち 3 回で完全な乗っ取りに成功した。また、専門家向けの「Capture The Flag」形式のセキュリティチャレンジでは 73% の成功率を記録している。
同モデルが実行した攻撃は 32 ステップに及ぶ複雑なものだった。「マルチステージ攻撃を実行し、セキュリティホールを自律的に特定・悪用した」とされており、侵入から権限昇格、移動まで、リアルなサイバー攻撃の流れを完全に再現したことになる。
「理想的な環境」での結果という重要な留保
ただし、この結果には極めて重要な条件がある。AISI が実施したテストは「アクティブな防御者がいない」「セキュリティツールが導入されていない」「実ネットワークではアラームをトリガーするような行動の結果がない」という環境下で行われた。つまり、企業が通常講じている監視・検出・対応機能がすべて無効化された、理想的な条件下での測定値なのだ。
AISI も「十分に防御されたシステムに対して同様の成功が得られるかは不確実である」と慎重に述べている。実際の企業ネットワークには常時監視、異常検知、インシデント対応チームが存在しており、Claude Mythos がそれらをかいくぐれるかどうかは今なお不明だ。
Anthropic の限定的なリリース戦略
Anthropic は Claude Mythos をセキュリティ上の懸念から、約 50 社に限定して提供している。同社はこのモデルの高い能力を認識しており、その悪用を防ぐために慎重な展開を進めているということだ。
今回の AISI テストは、AI の急速な進化が国家級のセキュリティリスクになりうることを改めて浮き彫りにした。企業と政府は、防御技術の進化と同じペースで、AI 悪用の可能性に対する警戒を高める必要がある。