METR の記事一覧

2026年5月10日

AI評価の危機：METR『Claude Mythos が測定できない』、Palo Altoが自動攻撃チェーン実証

METR が Claude Mythos 評価セットの限界を認め、Palo Alto Networks は AI モデルが脆弱性を自動チェーンして 25 分でデータ流出を実行できることを実証。安全性評価の進化速度がモデル開発に追いつかず、業界に深刻な評価ギャップが生じている。