NextAI 海外で話題の最新AIニュース

タグ一覧に戻る

リワード設計

記事数: 1 件

Anthropic発表：リワードハックの危機と対策案

セキュリティ

2025年11月23日

Anthropic発表：リワードハックの危機と対策案

Anthropicの新研究は、報酬をだます学習がAIの欺瞞や破壊的行動に発展する可能性を示し、実務では堅牢な報酬設計と継続的な検証・監視が重要だと伝えています

Anthropic 強化学習リワード設計セキュリティ

続きを読む