セキュリティベンチマークの記事一覧

2026年5月17日

Claude Mythos が自動でブラウザ脆弱性を悪用――新ベンチマークで GPT-5.5 を圧倒

Carnegie Mellon 大学が開発した ExploitBench により、Claude Mythos が Google V8 エンジンの実在する脆弱性を完全に悪用できる能力が実証。GPT-5.5 との比較で圧倒的優位（21対2）を示す一方、12 倍のコスト差が課題に。