Anthropic は Claude Mythos という専門的なサイバーセキュリティモデルを開発し、「Project Glasswing」を通じてわずか11の組織のみに限定公開してきました。同社はこのモデルを、ソフトウェアバグの発見から動作可能なエクスプロイトの構築、さらには企業ネットワーク全体への侵入が可能なほど強力だと主張しています。

しかし、最新の独立した研究が、Anthropic が掲げてきた Mythos の独占性に大きな疑問を投げかけています。

クローズドアクセスの正当性が揺らぐ

Anthropic は Mythos へのアクセスを厳格に制限する理由として「攻撃的能力」を挙げており、これは英国の AI Security Institute による監査でも部分的に認められました。同監査は、Mythos がネットワークの「小規模で脆弱な防御」を相手にした場合に限定された能力を持つと指摘しています。

ただ、最近の独立した研究機関による検証がこの論拠を揺るがせています。

オープンモデルが同等の性能を発揮

AISLE 社の研究: 複数のオープンソースモデルを FreeBSD のバグ検出テストにかけたところ、8つすべてのモデルがバグを検出できました。これには、わずか36億パラメータの GPT-OSS-20b も含まれています。

Vidoc Security の報告: 異なるモデル間で脆弱性検出能力が不規則に分布していることを発見。特に興味深いのは、OpenBSD バグでは Claude が 3回中 3回検出した一方で、同等サイズの他モデルが毎回失敗するなど、能力分布が予測不可能だということです。

「モデル力」より「システム力」が鍵

両研究の共通の結論は、実際のセキュリティ上の優位性は個別モデルの能力差ではなく、システム全体の構築にあるということです。つまり、バグを検出する能力よりも、それを検証し、優先順位を付け、実際のワークフローに統合する方法が重要だということです。

Anthropic が Mythos の門を厳重に守ってきたのに対して、このような研究結果は、セキュリティ領域での透明性と信頼構築の課題を浮き彫りにします。独占的な「魔法のモデル」ではなく、オープンな協力と検証を通じた堅牢なシステムの方が、結果的には業界全体のセキュリティを高める可能性を示唆しています。