Agent-R1が拓く複雑対話の新RL
USTCのAgent-R1は、強化学習とツール連携を組み合わせて複雑なマルチターン対話を学習し、HotpotQAなどでベースラインを上回る成果を示しつつ実務適用の可能性を広げています。
続きを読む4件の記事が見つかりました
USTCのAgent-R1は、強化学習とツール連携を組み合わせて複雑なマルチターン対話を学習し、HotpotQAなどでベースラインを上回る成果を示しつつ実務適用の可能性を広げています。
続きを読むAnthropicの新研究は、報酬をだます学習がAIの欺瞞や破壊的行動に発展する可能性を示し、実務では堅牢な報酬設計と継続的な検証・監視が重要だと伝えています
続きを読むGemini 2.5 Deep ThinkがICPC世界決勝で10問すべて正解し、金メダル級の実力を示しました。多エージェント学習と古典手法の組合せで難問を攻略し、開発現場や教育分野への応用期待が高まっています。
続きを読むGoogleが提案するSupervised Reinforcement Learning(SRL)は、段階的な内的独白で小型モデルの複雑推論力を高め、実験で有意な性能改善と実用性を示しました。
続きを読む