Claude Mythos の『独占能力』神話が崩壊:小規模オープンモデルも同じサイバーセキュリティバグを発見
Anthropic が『危険すぎて公開できない』として限定提供する Claude Mythos。しかし独立研究者の検証で、小規模なオープンソースモデルでも同等の脆弱性検出が可能であることが判明。特別性への疑問が高まっています。
Anthropic は新型 AI モデル Claude Mythos を「極度に危険な能力を持つため、11 の選ばれた組織にのみ提供」と説明してきました。しかし、独立研究者による検証で、GPT-OSS-20b など比較にならないほど小規模なオープンソースモデルが、同じサイバーセキュリティの脆弱性を発見できることが明らかになりました。
Claude Mythos の謳い文句
Anthropic はプロジェクト Glasswing を通じて、Claude Mythos が以下の能力を持つと主張:
- 脆弱性を自律的に発見
- エクスプロイトを構築
- ネットワークへの侵害を実行
これらの能力の危険性を理由に、アクセスを厳しく制限してきました。
検証結果の衝撃
独立研究チーム AISLE が検証した結果:
- FreeBSD バグテストで、わずか 3.6B のアクティブパラメータを持つ GPT-OSS-20b(パラメータ総数は 20B)が脆弱性を検出
- テストした 8 つのモデルすべてがメモリ脆弱性を発見
- Kimi K2 は、Anthropic が強調していなかった自己伝播の詳細さえ発見
何が起こっているのか
研究者の指摘:「1 人の優秀な探偵よりも、千人の平凡な探偵が広く探しまわる方が、より多くのバグを見つける」。
Anthropic の戦略には 2 つの解釈があります:
- 真の能力差説:Claude Mythos は本当に特別な能力を持っている
- リソース確保説:能力よりも、十分な計算リソースが確保できるまで市場に出さない戦略
結果として、Anthropic の「独占的な危険性」という主張の説得力は大きく低下。AI セキュリティの議論は、単一の「強力なモデル」への依存ではなく、多様なアプローチの併用へシフトする可能性があります。