Claude Mythos が自動でブラウザ脆弱性を悪用――新ベンチマークで GPT-5.5 を圧倒

2026年5月17日 09:00

💡

Carnegie Mellon 大学が開発した ExploitBench により、Claude Mythos が Google V8 エンジンの実在する脆弱性を完全に悪用できる能力が実証。GPT-5.5 との比較で圧倒的優位（21対2）を示す一方、12 倍のコスト差が課題に。

ブラウザセキュリティ研究者レベルの能力を実装

Carnegie Mellon University の研究チームが開発した新ベンチマーク「ExploitBench」は、AI エージェントが実在する Google V8 エンジンの脆弱性を自動で悪用できるかを測定する初めての包括的テストです。結果は、Anthropic の Claude Mythos が現在のレベルでは「かなり有能なブラウザセキュリティ研究者」に匹敵する推論能力を持つことを示唆しています。

圧倒的な差：Mythos は 41 件中 21 件、GPT-5.5 は 2 件

ExploitBench は 5 段階のティアで脆弱性悪用能力を評価します。最高段階のT1（任意コード実行） に到達した件数で比較すると：

モデル	T1 到達件数（41件中）	スコア（満点 16）	ヒント付き	完全自動
Claude Mythos	21	9.90	9.55	-
GPT-5.5	2	5.51	4.30	-

Claude Mythos は OpenAI の GPT-5.5 に対して 10.5 倍の達成率 を示し、セキュリティ研究者が 1 年以上解決できなかった CVE-2024-0519 を自動で再現するなど、既知の困難な脆弱性にも対応できることが判明。

コスト課題：12 倍高い実行費用

パフォーマンスの一方で、深刻なコスト問題が浮上しました。同じテスト環境での推論コスト比較：

Claude Mythos：約 36,428 ドル（122 エピソード）
GPT-5.5：約 3,075 ドル（123 エピソード）
価格差：12 倍

Mythos が高コストであることは既知ですが、この結果は「セキュリティベンチマークのような複雑な多段階推論タスクでは、Mythos の優位性が最も顕著に現れる」ことを示しています。一般的なクエリではこれほどの差は出ません。

業界への影響：セキュリティ対応の急務

この結果は、AI セキュリティ研究コミュニティに二つの現実を突きつけます：

AI エージェントによる自動攻撃が現実的脅威に ― Mythos レベルのモデルが実際のブラウザ脆弱性を無指導で悪用できる能力を持つことは、防御側の対応方針の抜本的な見直しを迫ります
ベンチマークの重要性 ― ExploitBench のような「実際のシステムでのテスト」がモデル能力を正確に測定する唯一の方法である ― 合成ベンチマークでは捕捉できない能力が存在することが明らかになりました

V8 エンジンの開発チーム（Google Chrome セキュリティチーム）やウェブブラウザベンダーは、今後の脆弱性修正優先度をこの研究結果に基づいて再評価する必要があります。

記事をシェア

参考ソース

★ 注目 THE DECODER

LLM・生成AIの記事

Anthropic が Claude Sonnet 5 をリリース、エージェンティック機能で Opus と同等性能を低価格実現

LLM・生成AI

2026年7月1日

Anthropic が Claude Sonnet 5 をリリース、エージェンティック機能で Opus と同等性能を低価格実現

Anthropic は Claude Sonnet 5 をリリース。前モデル Sonnet 4.6 から大幅に向上し、Opus 4.8 と同等の性能を実現。複雑なツール利用・推論・コード作成に対応。導入期間は入力 $2/M トークンという破格の価格設定。

Google が Gemini Omni Flash・Nano Banana 2 Lite をリリース、画像・動画生成を低コスト化

LLM・生成AI

2026年7月1日

Google が Gemini Omni Flash・Nano Banana 2 Lite をリリース、画像・動画生成を低コスト化

Google DeepMind は Nano Banana 2 Lite と Gemini Omni Flash をリリース。Nano Banana 2 Lite は 4 秒で画像生成、$0.034/1K 画像の低コスト。Omni Flash は動画編集に最適化、$0.10 秒単位で利用可能。Google AI Studio・Gemini API で本日から提供開始。

Anthropic が Claude Science ベータ版をリリース、科学研究向けワークベンチで計算業務を統合

LLM・生成AI

2026年7月1日

Anthropic が Claude Science ベータ版をリリース、科学研究向けワークベンチで計算業務を統合

Anthropic は Claude Science を発表。60以上の科学データベース、ゲノミクス・タンパク質構造・化学向けツール、マルチエージェント機能、事実検証AI を備え、科学者が複数ツール間を行き来する手間を削減する。Pro 以上のサブスクリプション利用者向けベータ版は 6 月 30 日より提供開始。

GPT-5.6 Sol 完全ガイド: Sol、Terra、Luna の3階層モデルを徹底解説

OpenAI が発表した GPT-5.6 は、フラグシップの Sol、バランス型の Terra、コスト重視の Luna という3階層構成を採用。Max モードや Ultra モードの新機能、Claude Mythos 5 との性能比較、価格設定まで、開発者が知るべきすべてを解説する。

政策・規制

2026年6月18日

ホワイトハウスが SK Telecom の Claude Mythos アクセスを取り消し、中国との関係を理由に

Anthropic の最先端モデル Mythos をめぐり、米ホワイトハウスが韓国の通信大手 SK Telecom へのアクセスを取り消すよう命令。中国との関係を理由とした規制措置。

Claude Mythos がエルデシュ予想を「シンプルな証明」で解く——AI 数学能力の新マイルストーン

LLM・生成AI

2026年5月27日

Claude Mythos がエルデシュ予想を「シンプルな証明」で解く——AI 数学能力の新マイルストーン

Anthropic の Claude Mythos が 1946 年から未解決だったエルデシュの単位距離予想を解く。「かわいい、シンプルな証明」と評価され、AI 駆動型の数学発見に「深刻な余力」が存在することが明らかになった。

Anthropic が Claude Sonnet 5 をリリース、エージェンティック機能で Opus と同等性能を低価格実現

Claude Sonnet 5 Anthropic エージェント LLM

Meituan が LongCat-2.0 を発表、1.6 兆パラメータを国産チップで訓練——中国が Nvidia 依存から脱却

テクノロジー

2026年7月1日

Meituan が LongCat-2.0 を発表、1.6 兆パラメータを国産チップで訓練——中国が Nvidia 依存から脱却

Meituan はLongCat-2.0（1.6兆パラメータ）を発表。35兆トークンで学習し、5万基以上の国産 ASIC チップを用いて Nvidia GPU を一切使用せずに訓練。ソフトウェアエンジニアリング分野で OpenAI・Google のモデルを上回る性能を示し、中国の AI 自給能力を実証。

中国AI Nvidia規制 ASIC 大規模言語モデル

LLM・生成AI

2026年7月1日