SRLで小型モデルが複雑推論を克服

2025年11月15日 11:30

💡

Googleが提案するSupervised Reinforcement Learning（SRL）は、段階的な内的独白で小型モデルの複雑推論力を高め、実験で有意な性能改善と実用性を示しました。

GoogleのSRLで小型モデルが複雑推論を克服

小さなモデルが難問に挑むとき、どうやって「一歩ずつ」学ばせるかが鍵になります。Googleが提案したSupervised Reinforcement Learning（SRL）は、まさにその課題に挑む新しい学習枠組みです。簡単に言えば、専門家の手順を細かく分解して段階ごとに学ばせることで、小型モデルでも複雑な推論を効率的に習得できるようにする手法です。

SRLとは何か：段階的な行動と内的独白で学ぶ

SRL（Supervised Reinforcement Learning）は、問題解決を「連続的な行動列（sequential decision-making）」として捉え直します。ここでのポイントは二つです。

専門家のデモを中間アクションに分割して学習データにすること。例えるなら、長い登山ルートを小さな区間ごとに地図化するようなものです。
各ステップでモデルはまず内的独白（内部推論）を生成し、その後に実際のアクションを出力します。内部推論は記事中で<think>タグとして示されます。

各ステップで、モデルのアクションと専門家のアクションの類似度に基づく報酬が与えられます。これにより、従来の「最終解答だけを評価する」方式よりも細かい（dense）報酬信号が得られ、途中まで正しい挙動からも学べるようになります。

従来手法との違い：RLVRとSFTの“はざま”に位置する設計

従来の代表的手法は大きく二つです。

RLVR（reinforcement learning with verifiable rewards）：最終解のみで報酬を与える。報酬が希薄（スパース）になりやすく、途中で正しい部分から学べない弱点があります。
SFT（supervised fine-tuning）：専門家の推論過程を丸ごと模倣する。高品質なデータに依存し、データが足りないと過学習や汎化性の低下を招きやすい。

SRLはこの中間に位置します。中間アクションごとの報酬でスパース性を和らげつつ、単なる模倣に留まらない柔軟な推論スタイルを育てます。結果として、小型モデルでも効率良く学習できるようになるのです。

実験結果：数学とコーディングで見えた改善

研究チームはSRLを数学の難問と、エージェント的なソフトウェア工学タスクで評価しました。主な結果は次の通りです。

Qwen2.5-7B-Instruct を1,000問の数学ベンチマークで微調整したところ、SRLは他手法に比べ平均約**+3.0%**の性能向上を示しました。
Qwen2.5-Coder-7B-Instruct を5,000本の専門家軌跡で学習させたコーディング系タスクでは、SRLは**タスク解決率14.8%を達成。SFTベースの強力な比較モデルに対して相対+74%**の改善という大きな差が出ました。
さらに、SRLで事前学習した後にRLVRで精練する「カリキュラム的」組合せでは、平均**+3.7%**の追加改善が観察されました（比較に用いられたRLアルゴリズムの一例にGRPOがあります）。

研究者は、これらの利得は推論の品質と構造に由来するとし、トークン使用量はベースモデルと概ね同等であるため、推論コストが大幅に増えたわけではないと説明しています。