Anthropic が、約50のパートナー企業と進める産業連携プロジェクト「Project Glasswing」の実績を公開した。Claude Mythos Preview が 1ヶ月間のテストで、システム関連ソフトウェアから 10,000件以上の高・重大度脆弱性を特定した。同時に Anthropic は、脆弱性の検出速度が修正速度をはるかに上回ることで、業界が新たな危機的状況に直面していることを警告している。

実測された検出能力

Project Glasswing での具体的な成果は以下の通りだ。

  • 全体: 約50パートナーによるテストで、月間 10,000件以上の高・重大度脆弱性を特定
  • Cloudflare: 2,000件のバグを検出(うち 400件が高・重大度)
  • Mozilla Firefox: 271の未知の脆弱性を発見。前モデルと比較して 10倍以上の検出率
  • オープンソースプロジェクト: 1,000以上をスキャンし、6,202件の高・重大度脆弱性を発見

これらの数字は、Claude Mythos Preview が既存の脆弱性検出手段を大幅に上回る検出能力を持つことを示している。

「修正が追いつかない」危機

もっとも深刻な問題は、検出と修正のギャップだ。

Anthropic の調査によると、高・重大度のバグ修正には平均 2週間を要する。一方、Mythos Preview による脆弱性検出は月間 10,000件以上。つまり、修正体制の処理能力をはるかに超える速度で脆弱性が蓄積されている。

オープンソース脆弱性の修正率はさらに深刻で、報告された 530件中、実際に修正されたのはわずか 75件(14%)だ。残り 86% の脆弱性は「報告されたが未修正の状態」のまま放置されている。

Anthropic が示す警告

Anthropic は同時に、Claude Mythos Preview のような高能力モデルに対する安全保障上の懸念を表明している。

同社は「no company, itself included, has built safeguards strong enough to prevent misuse of these models(どの企業も、自社を含め、これらのモデルの悪用を防ぐのに十分な保護策を構築していない)」と述べ、脆弱性検出能力の高さと引き換えに、悪用リスクが高まることへの警戒を促している。

インフラ・セキュリティチームの課題

開発者・セキュリティエンジニアにとって、今回の発表は次の2つの意味を持つ。

  1. AI による脆弱性検出の実効性が証明された。従来の自動化ツールよりも大幅に多くのバグを見つけられる。

  2. 一方で、修正リソースが新しいボトルネックになった。検出能力の向上に、組織の修正能力が追いついていない。

組織全体のセキュリティ運用が問われる局面だ。検出されたアラートの優先順位付けと、修正プロセスの抜本的な見直しが急務となる。

Project Glasswing が浮き彫りにしたもの

Project Glasswing は、AI による防御的セキュリティの可能性と課題の両面を明らかにした。脆弱性検出という「見つける側」では革新的な進歩がある一方で、「修正する側」の組織体制がそれに追いついていない。次のフェーズでは、検出効率化だけでなく、組織全体のセキュリティ運用設計の再構築が不可欠となる。