ブラウザセキュリティ研究者レベルの能力を実装

Carnegie Mellon University の研究チームが開発した新ベンチマーク「ExploitBench」は、AI エージェントが実在する Google V8 エンジンの脆弱性を自動で悪用できるかを測定する初めての包括的テストです。結果は、Anthropic の Claude Mythos が現在のレベルでは「かなり有能なブラウザセキュリティ研究者」に匹敵する推論能力を持つことを示唆しています。

圧倒的な差:Mythos は 41 件中 21 件、GPT-5.5 は 2 件

ExploitBench は 5 段階のティアで脆弱性悪用能力を評価します。最高段階のT1(任意コード実行) に到達した件数で比較すると:

モデルT1 到達件数(41件中)スコア(満点 16)ヒント付き完全自動
Claude Mythos219.909.55-
GPT-5.525.514.30-

Claude Mythos は OpenAI の GPT-5.5 に対して 10.5 倍の達成率 を示し、セキュリティ研究者が 1 年以上解決できなかった CVE-2024-0519 を自動で再現するなど、既知の困難な脆弱性にも対応できることが判明。

コスト課題:12 倍高い実行費用

パフォーマンスの一方で、深刻なコスト問題が浮上しました。同じテスト環境での推論コスト比較:

  • Claude Mythos:約 36,428 ドル(122 エピソード)
  • GPT-5.5:約 3,075 ドル(123 エピソード)
  • 価格差:12 倍

Mythos が高コストであることは既知ですが、この結果は「セキュリティベンチマークのような複雑な多段階推論タスクでは、Mythos の優位性が最も顕著に現れる」ことを示しています。一般的なクエリではこれほどの差は出ません。

業界への影響:セキュリティ対応の急務

この結果は、AI セキュリティ研究コミュニティに二つの現実を突きつけます:

  1. AI エージェントによる自動攻撃が現実的脅威に ― Mythos レベルのモデルが実際のブラウザ脆弱性を無指導で悪用できる能力を持つことは、防御側の対応方針の抜本的な見直しを迫ります
  2. ベンチマークの重要性 ― ExploitBench のような「実際のシステムでのテスト」がモデル能力を正確に測定する唯一の方法である ― 合成ベンチマークでは捕捉できない能力が存在することが明らかになりました

V8 エンジンの開発チーム(Google Chrome セキュリティチーム)やウェブブラウザベンダーは、今後の脆弱性修正優先度をこの研究結果に基づいて再評価する必要があります。