Anthropic の限定公開モデル Claude Mythos が、サイバーセキュリティ分野で「唯一無二の能力」を持つと宣伝してきたが、独立した2つの研究(AISLE と Vidoc Security)が、小規模なオープンモデルでも同等の脆弱性を発見できることを実証しました。

Mythos の実力:ソフトウェアバグを自動発見

Anthropic は Mythos について、Project Glasswing の 11 の企業・機関コンソーシアムに限定公開。テストによれば、Mythos は「ソフトウェアバグを自動検出し、実行可能なエクスプロイトを構築し、シミュレーション環境で企業ネットワーク全体を支配できる」とされていました。

オープンモデルが次々と同等の性能を実証

研究チームが 8 種類のオープンソースモデルをテストしたところ:

  • FreeBSD 脆弱性検出: GPT-OSS-20b(35 億パラメータ)を含む全 8 モデルが脆弱性を特定し、エクスプロイト戦略を提案
  • タスク別の変動性: Claude Opus は論理フローの欠陥に優れていた一方、Deepseek R1 や Kimi K2 は他のタスクで大規模モデルと同等の性能を発揮
  • 偽陽性の課題: 大多数の小規模モデルが、既にパッチされた脆弱性を修正済みと認識できず、実在しない問題を「発見」する傾向

「優位性は個別モデルではなく、システム全体」

研究者たちの結論は重要です:「真の強みは個別モデルにあるのではなく、その周囲に構築されたシステムにある」。つまり、脆弱性の検証、優先順位付け、運用ワークフロー設計などが、Mythos の「ブラックボックス的な優位性」よりも実質的に重要だということです。

Anthropic のアプローチは「一種のモデル独占論」に基づいていたが、実際には「検査・検証システムの堅牢性」が勝敗を分けるという指摘は、AI セキュリティ産業全体に波紋を広げそうです。