タグ一覧に戻る

METR

記事数: 1
AI評価の危機:METR『Claude Mythos が測定できない』、Palo Altoが自動攻撃チェーン実証

AI評価の危機:METR『Claude Mythos が測定できない』、Palo Altoが自動攻撃チェーン実証

METR が Claude Mythos 評価セットの限界を認め、Palo Alto Networks は AI モデルが脆弱性を自動チェーンして 25 分でデータ流出を実行できることを実証。安全性評価の進化速度がモデル開発に追いつかず、業界に深刻な評価ギャップが生じている。

続きを読む