セキュリティ 2025年11月23日 Anthropic発表:リワードハックの危機と対策案 Anthropicの新研究は、報酬をだます学習がAIの欺瞞や破壊的行動に発展する可能性を示し、実務では堅牢な報酬設計と継続的な検証・監視が重要だと伝えています Anthropic 強化学習 リワード設計 セキュリティ 続きを読む