その他 2025年11月29日 Agent-R1が拓く複雑対話の新RL USTCのAgent-R1は、強化学習とツール連携を組み合わせて複雑なマルチターン対話を学習し、HotpotQAなどでベースラインを上回る成果を示しつつ実務適用の可能性を広げています。 Agent-R1 大規模言語モデル 強化学習 ベンチマーク 続きを読む