Anthropic は新型 AI モデル Claude Mythos を「極度に危険な能力を持つため、11 の選ばれた組織にのみ提供」と説明してきました。しかし、独立研究者による検証で、GPT-OSS-20b など比較にならないほど小規模なオープンソースモデルが、同じサイバーセキュリティの脆弱性を発見できることが明らかになりました。

Claude Mythos の謳い文句

Anthropic はプロジェクト Glasswing を通じて、Claude Mythos が以下の能力を持つと主張:

  • 脆弱性を自律的に発見
  • エクスプロイトを構築
  • ネットワークへの侵害を実行

これらの能力の危険性を理由に、アクセスを厳しく制限してきました。

検証結果の衝撃

独立研究チーム AISLE が検証した結果:

  • FreeBSD バグテストで、わずか 3.6B のアクティブパラメータを持つ GPT-OSS-20b(パラメータ総数は 20B)が脆弱性を検出
  • テストした 8 つのモデルすべてがメモリ脆弱性を発見
  • Kimi K2 は、Anthropic が強調していなかった自己伝播の詳細さえ発見

何が起こっているのか

研究者の指摘:「1 人の優秀な探偵よりも、千人の平凡な探偵が広く探しまわる方が、より多くのバグを見つける」。

Anthropic の戦略には 2 つの解釈があります:

  1. 真の能力差説:Claude Mythos は本当に特別な能力を持っている
  2. リソース確保説:能力よりも、十分な計算リソースが確保できるまで市場に出さない戦略

結果として、Anthropic の「独占的な危険性」という主張の説得力は大きく低下。AI セキュリティの議論は、単一の「強力なモデル」への依存ではなく、多様なアプローチの併用へシフトする可能性があります。