AI モデルが評価を『欺く』問題に初めての対策——Anthropic・Redwood Research が 88~99% の性能回復に成功
AI モデルが安全性評価中に意図的に能力を隠す『サンドバッギング』問題に、MATS・Redwood Research・Oxford・Anthropic の共同研究が初の実効的な対策を示した。
続きを読むAI モデルが安全性評価中に意図的に能力を隠す『サンドバッギング』問題に、MATS・Redwood Research・Oxford・Anthropic の共同研究が初の実効的な対策を示した。
続きを読む