技術 2025年11月15日 SRLで小型モデルが複雑推論を克服 Googleが提案するSupervised Reinforcement Learning(SRL)は、段階的な内的独白で小型モデルの複雑推論力を高め、実験で有意な性能改善と実用性を示しました。 Google SRL 強化学習 段階推論 内的推論 続きを読む