AI評価の危機:METR『Claude Mythos が測定できない』、Palo Altoが自動攻撃チェーン実証
METR が Claude Mythos 評価セットの限界を認め、Palo Alto Networks は AI モデルが脆弱性を自動チェーンして 25 分でデータ流出を実行できることを実証。安全性評価の進化速度がモデル開発に追いつかず、業界に深刻な評価ギャップが生じている。
続きを読むMETR が Claude Mythos 評価セットの限界を認め、Palo Alto Networks は AI モデルが脆弱性を自動チェーンして 25 分でデータ流出を実行できることを実証。安全性評価の進化速度がモデル開発に追いつかず、業界に深刻な評価ギャップが生じている。
続きを読む