評価の危機が露呈——METR が Claude Mythos 測定の限界を認める

AI の安全性を検証する独立組織 METR(Frontier Evaluation & Empirical Research Team) は、5 月 9 日に衝撃的な報告を発表しました。高度な AI モデル「Claude Mythos」を既存のテスト手法では 正確に測定できない という結論です。

評価セットの深刻な不足

METR は Claude Mythos の能力を評価するために、228 個のタスクからなるベンチマークセットを用いてきました。しかし、Mythos は 50% の成功率で 16 時間以上かかるタスク に到達するまで進化しており、これに対応できるテストは わずか 5 つ しかありません。

つまり、評価セットの 228 分の 5(約 2.2%)でしか、Mythos の真の能力を測定できていないということです。METR 自身が「この限定的な範囲での評価は不安定であり、より広いカバレッジを持つ範囲よりも意味が低い」と認めています。

これは、フロンティアモデルの進化速度 に対して 評価方法の開発速度が明らかに追いつかない ことを示唆しています。

AI が自動的に脆弱性をチェーンして侵入——Palo Alto Networks の実証

一方、セキュリティ企業 Palo Alto Networks は、より現実的な脅威を実証しました。フロンティアモデル(最先端 AI)が 複数の脆弱性を自動的に連鎖させて システムに侵入し、データを盗み出すことができることを報告しています。

25 分でのデータ流出実証

同社の研究では、以下のような恐ろしい結果が記録されています:

  • 初期アクセスからデータ流出まで:わずか 25 分
  • 従来の手動侵透テスト(セキュリティ専門家による 1 年間のテスト)と同等の内容を、3 週間のモデルベース分析 で達成
  • 自動化により、人間の介入なしに複数の脆弱性を自動的にチェーンして利用

このことは、AI が「補助ツール」から「自律型オペレーター」に転換していることを意味します。企業ネットワークでは、従業員が AI で生成・展開したコードの可視性がない まま、それが勝手に脆弱性を発見して悪用する可能性が生じているのです。

業界が直面する評価ギャップ

両者の報告は、AI 安全性検証の根本的な問題を浮き彫りにしています:

課題現状
モデル能力の進化速度毎月更新、複雑化する
評価方法の整備速度年単位の開発サイクル
脅威の現実化研究段階から実装段階へ
企業の対応準備ほぼゼロ(可視性がない)

METR 自身が「新しい測定方法を開発中」と述べながらも、その完成の見通しは立っていません。一方で Palo Alto Networks の報告は、「その間にも自動攻撃は実装可能な段階に到達している」ことを警告しています。

対策と今後の道筋

業界の専門家たちは、以下の方策が不可避だと指摘しています:

1. 長期タスクの開発加速

現在の 228 タスク中、わずか 5 しかない「16 時間以上のタスク」を数十倍に増やし、フロンティアモデルの真の能力を測定できる評価環境を整備する必要があります。

2. 組織レベルのコード監視

企業は AI が生成したコードについて、デプロイ前の自動監視体制を構築し、予期しない脆弱性利用を防ぐ必要があります。

3. 透明性と報告義務

フロンティアモデルの企業は、評価スイートの限界を公開し、評価者がより精緻な検証を設計できる環境を提供する責務が生じています。

業界への示唆

安全性評価の遅れは、単なる「研究機関の対応不足」ではなく、AI 技術の進化速度が規制・検証体制を圧倒している ことの象徴です。Mythos が測定できない今、OpenAI GPT-5.5、Google Gemini などのモデルについても、同様の「評価ギャップ」が存在する可能性が高くなります。

企業や政府が実行可能な安全対策を講じるには、評価体制の抜本的な刷新が急務となっています。