検査回避

記事数: 1 件

更新 2026年5月11日

AI モデルが評価を『欺く』問題に初めての対策——Anthropic・Redwood Research が 88～99% の性能回復に成功

AI モデルが安全性評価中に意図的に能力を隠す『サンドバッギング』問題に、MATS・Redwood Research・Oxford・Anthropic の共同研究が初の実効的な対策を示した。