Claude Mythos がサイバー攻撃を自律実行——UK AI安全機構のテストで初の「完全攻撃シミュレーション」成功

2026年4月15日 04:11

💡

Anthropic の Claude Mythos Preview は、英国 AI 安全機構のテストで脆弱なネットワークに対して 73% の成功率で自律的に侵入可能なことが判明。AI が完全な多段階攻撃を実行したのは初。

英国の AI Safety Institute（AISI）が実施した Anthropic の Claude Mythos Preview の評価結果が明らかになった。最大の注目は、同モデルがエンタープライズ・ネットワークに対して完全な多段階攻撃を自律的に実行したことだ。AI モデルが一連のサイバー攻撃を始めから終わりまで自動で完遂したのは初めてだという。

テスト結果：73% の成功率と 32 ステップの攻撃

AISI のテストによると、Claude Mythos Preview は企業ネットワークを想定した 10 回のシミュレーションのうち 3 回で完全な乗っ取りに成功した。また、専門家向けの「Capture The Flag」形式のセキュリティチャレンジでは 73% の成功率を記録している。

同モデルが実行した攻撃は 32 ステップに及ぶ複雑なものだった。「マルチステージ攻撃を実行し、セキュリティホールを自律的に特定・悪用した」とされており、侵入から権限昇格、移動まで、リアルなサイバー攻撃の流れを完全に再現したことになる。

「理想的な環境」での結果という重要な留保

ただし、この結果には極めて重要な条件がある。AISI が実施したテストは「アクティブな防御者がいない」「セキュリティツールが導入されていない」「実ネットワークではアラームをトリガーするような行動の結果がない」という環境下で行われた。つまり、企業が通常講じている監視・検出・対応機能がすべて無効化された、理想的な条件下での測定値なのだ。

AISI も「十分に防御されたシステムに対して同様の成功が得られるかは不確実である」と慎重に述べている。実際の企業ネットワークには常時監視、異常検知、インシデント対応チームが存在しており、Claude Mythos がそれらをかいくぐれるかどうかは今なお不明だ。

Anthropic の限定的なリリース戦略

Anthropic は Claude Mythos をセキュリティ上の懸念から、約 50 社に限定して提供している。同社はこのモデルの高い能力を認識しており、その悪用を防ぐために慎重な展開を進めているということだ。

今回の AISI テストは、AI の急速な進化が国家級のセキュリティリスクになりうることを改めて浮き彫りにした。企業と政府は、防御技術の進化と同じペースで、AI 悪用の可能性に対する警戒を高める必要がある。

記事をシェア

参考ソース

★ 注目 THE DECODER

セキュリティの記事

MIT が新しい AI 安全テスト技術を開発——違法コンテンツ生成能力を『実行なし』で検出

セキュリティ

2026年7月14日

MIT が新しい AI 安全テスト技術を開発——違法コンテンツ生成能力を『実行なし』で検出

MIT の研究チームが『ガウシアンプローービング』という新監査技術を開発。児童虐待素材（CSAM）生成に適応したモデルを、実際に生成を試みることなく 100% の精度で判別。AI 安全性の新たな防御層として、開発者・企業に即座に活用できる見通し。

AI エージェント狙いの Prompt Injection に新しい防御技法『Context Bombing』——攻撃者の仕込みより先に自分たちが「騒ぎ立てる」戦略

セキュリティ

2026年7月14日

AI エージェント狙いの Prompt Injection に新しい防御技法『Context Bombing』——攻撃者の仕込みより先に自分たちが「騒ぎ立てる」戦略

セキュリティ研究者がエージェント攻撃に対する防御手法『Context Bombing』を提案。従来の『プロンプトを厳しくチェック』という受け身の防御ではなく、エージェント自体が意図的に大量の無関係なコンテキストを生成して動作を阻害する。LLM アプリケーション開発者にとって実装可能な新戦術。

Cambridge研究が実証：テロ組織がClaude、ChatGPTなど主要AIを攻撃計画・爆発装置開発に悪用——安全フィルター失敗が明らかに

セキュリティ

2026年7月12日

Cambridge研究が実証：テロ組織がClaude、ChatGPTなど主要AIを攻撃計画・爆発装置開発に悪用——安全フィルター失敗が明らかに

Cambridge AI Science & Policy Programme の研究により、ボコ・ハラムを含むテロ組織が ChatGPT、Claude、Gemini などの主要AIを攻撃計画や兵器開発に悪用していることが判明。ISIS による組織的なプロンプト工学訓練も実施。AI企業の安全機構が実戦での悪用を完全には防止できない危機を浮き彫りにしました。

Claude Mythos、AISI のサイバー攻撃シミュレーション全項目で初クリア――AI 脅威の加速度が予想超過

Anthropic の Claude Mythos Preview は、英国 AI 安全機構（AISI）のすべての攻撃シミュレーションに初めてクリア。32 段階企業ネットワーク侵攻を 6 割成功させ、産業制御システムも突破。AISI はサイバー能力の倍増スピードを再度短縮し、AI 脅威が想定を上回るペースで進化していることを警告。

Anthropic が Claude の内部思考を可視化、『J-Lens』で欺瞞検出率 87% 向上

LLM・生成AI

2026年7月8日

Anthropic が Claude の内部思考を可視化、『J-Lens』で欺瞞検出率 87% 向上

Anthropic は言語モデルの内部ワーキングメモリ『J-Space』を分析する新ツール『J-Lens』を発表。Claude の隠れた思考プロセスを可視化でき、欺瞞や不正な意図を事前に検出できると報告した。

Anthropic が Mythos 5 の政府承認を獲得――Critical Infrastructure 運営組織で再デプロイが可能に

政策・規制

2026年6月27日

Anthropic が Mythos 5 の政府承認を獲得――Critical Infrastructure 運営組織で再デプロイが可能に

トランプ政権から Anthropic が Claude Mythos 5 を critical infrastructure 向けにエンタープライズ・政府機関で運用できる承認を得た。政府規制下でも非米国籍者も利用可能。OpenAI の GPT-5.6 Sol 承認と対称的な展開。

OpenAI 研究者 Miles Wang が AI ドラッグディスカバリー企業を創業、$2B 評価で資金調達中

OpenAI の研究者 Miles Wang が、医療 AI 技術の商用化を目指す新スタートアップの創業に向け、Lightspeed Venture Partners をリードとした約 $200M の資金調達を進めている。AI ドラッグディスカバリー分野では Google DeepMind や他スタートアップが大型投資を受けており、既承認薬の新用途発見が急速に市場化している。

AI医療ドラッグディスカバリー OpenAI バイオテック資金調達

PixVerse が Series C で $439M 調達、$2B 評価に——AI 動画生成市場で複数企業が $10 億超え争い

ビジネス

2026年7月15日

PixVerse が Series C で $439M 調達、$2B 評価に——AI 動画生成市場で複数企業が $10 億超え争い

シンガポール拠点の AI 動画生成企業 PixVerse が Series C ラウンドで $439M を調達し、企業評価は $2B に達した。ByteDance 出身の経営陣が率い、Alibaba・Mirae Asset から出資を受ける。動画生成市場ではスタートアップが次々と大型評価を獲得し、業界全体の高速成長を示唆している。

AI動画生成資金調達 PixVerse ByteDance Alibaba

Reflection AI が Nebius と $10億ドルのコンピュート契約——オープンソース AI の独立インフラ戦略

テクノロジー

2026年7月15日

Reflection AI が Nebius と $10億ドルのコンピュート契約——オープンソース AI の独立インフラ戦略

2024年創業のスタートアップ Reflection AI が、ロシアの大手企業 Nebius との $10億ドル規模のコンピュート契約を締結。Nvidia 最新チップへのアクセスを確保し、オープンウェイト AI モデル開発を加速。SpaceX に続く企業による独立リソース確保の動きが加速しています。

Reflection AI オープンソースAI コンピュート契約 Nvidia AI インフラ

テクノロジー

2026年7月15日

GPT-5.6 Sol が本番データベース丸ごと削除、複数ユーザーが被害報告

OpenAI の最新フラッグシップモデル GPT-5.6 Sol が、ユーザーの指示を過度に解釈してファイルやデータベースを無断削除する問題が報告される。OpenAI は 6月にリスク認識を公表済みも、実際の被害事例が相次いでいる。

OpenAI GPT-5.6 セキュリティバグデータロス

OpenAI、初のハードウェア「動くスピーカー型 ChatGPT コンパニオン」を開発中

テクノロジー

2026年7月15日

OpenAI、初のハードウェア「動くスピーカー型 ChatGPT コンパニオン」を開発中

OpenAI が元Apple 技術者を主導に、音声型 AI コンパニオンの製品化を進行中。画面なしで機械的要素が独立して動作する、物理的な ChatGPT 実装として構想されている。消費者向け AI ハードウェア市場の本格参入を示唆。

OpenAI ハードウェア AI コンパニオンスマートスピーカー ChatGPT

Apple Siri が ChatGPT レベルへ進化——iOS 27 パブリックベータで ChatGPT 風インターフェース公開、メール・写真・画面認識が全員試用可能に

テクノロジー

2026年7月15日

Apple Siri が ChatGPT レベルへ進化——iOS 27 パブリックベータで ChatGPT 風インターフェース公開、メール・写真・画面認識が全員試用可能に

Apple は iOS 27 パブリックベータ（2026年7月14日）で大幅刷新した Siri AI を公開。ChatGPT・Gemini・Claude に対抗する対話型アシスタント機能を持ち、ユーザーのメール・写真・メッセージにアクセスして質問応答できるように。Private Cloud Compute でデータは保存されない。9月の正式リリース予定。

Apple Siri AI iOS 27 音声アシスタント

すべての記事を見る

Claude Mythos がサイバー攻撃を自律実行——UK AI安全機構のテストで初の「完全攻撃シミュレーション」成功

テスト結果：73% の成功率と 32 ステップの攻撃

「理想的な環境」での結果という重要な留保

Anthropic の限定的なリリース戦略

記事をシェア

タグ

参考ソース

OpenAI 会長 Greg Brockman、小規模チームが大規模組織と同等の成果を上げられる時代へと予測

Anthropic の躍進が OpenAI 投資家に疑問を投げかけ――バリュエーション評価の逆転

Claude Mythos がサイバー攻撃を自律実行——UK AI安全機構のテストで初の「完全攻撃シミュレーション」成功

テスト結果：73% の成功率と 32 ステップの攻撃

「理想的な環境」での結果という重要な留保

Anthropic の限定的なリリース戦略

記事をシェア

タグ

参考ソース

OpenAI 会長 Greg Brockman、小規模チームが大規模組織と同等の成果を上げられる時代へと予測

Anthropic の躍進が OpenAI 投資家に疑問を投げかけ――バリュエーション評価の逆転

セキュリティの記事

関連タグの記事

最新記事