GoogleのSRLで小型モデルが複雑推論を克服

小さなモデルが難問に挑むとき、どうやって「一歩ずつ」学ばせるかが鍵になります。Googleが提案したSupervised Reinforcement Learning(SRL)は、まさにその課題に挑む新しい学習枠組みです。簡単に言えば、専門家の手順を細かく分解して段階ごとに学ばせることで、小型モデルでも複雑な推論を効率的に習得できるようにする手法です。

SRLとは何か:段階的な行動と内的独白で学ぶ

SRL(Supervised Reinforcement Learning)は、問題解決を「連続的な行動列(sequential decision-making)」として捉え直します。ここでのポイントは二つです。

  • 専門家のデモを中間アクションに分割して学習データにすること。例えるなら、長い登山ルートを小さな区間ごとに地図化するようなものです。
  • 各ステップでモデルはまず内的独白(内部推論)を生成し、その後に実際のアクションを出力します。内部推論は記事中で<think>タグとして示されます。

各ステップで、モデルのアクションと専門家のアクションの類似度に基づく報酬が与えられます。これにより、従来の「最終解答だけを評価する」方式よりも細かい(dense)報酬信号が得られ、途中まで正しい挙動からも学べるようになります。

従来手法との違い:RLVRとSFTの“はざま”に位置する設計

従来の代表的手法は大きく二つです。

  • RLVR(reinforcement learning with verifiable rewards):最終解のみで報酬を与える。報酬が希薄(スパース)になりやすく、途中で正しい部分から学べない弱点があります。
  • SFT(supervised fine-tuning):専門家の推論過程を丸ごと模倣する。高品質なデータに依存し、データが足りないと過学習や汎化性の低下を招きやすい。

SRLはこの中間に位置します。中間アクションごとの報酬でスパース性を和らげつつ、単なる模倣に留まらない柔軟な推論スタイルを育てます。結果として、小型モデルでも効率良く学習できるようになるのです。

実験結果:数学とコーディングで見えた改善

研究チームはSRLを数学の難問と、エージェント的なソフトウェア工学タスクで評価しました。主な結果は次の通りです。

  • Qwen2.5-7B-Instruct を1,000問の数学ベンチマークで微調整したところ、SRLは他手法に比べ平均約**+3.0%**の性能向上を示しました。
  • Qwen2.5-Coder-7B-Instruct を5,000本の専門家軌跡で学習させたコーディング系タスクでは、SRLは**タスク解決率14.8%を達成。SFTベースの強力な比較モデルに対して相対+74%**の改善という大きな差が出ました。
  • さらに、SRLで事前学習した後にRLVRで精練する「カリキュラム的」組合せでは、平均**+3.7%**の追加改善が観察されました(比較に用いられたRLアルゴリズムの一例にGRPOがあります)。

研究者は、これらの利得は推論の品質と構造に由来するとし、トークン使用量はベースモデルと概ね同等であるため、推論コストが大幅に増えたわけではないと説明しています。

導入時の注意点と現実的な運用戦略

SRLは小型でコストの低いモデルを高い推論能力へと押し上げる可能性がありますが、導入には考慮点があります。

  • 高品質な専門家軌跡(solution trajectories)の準備が必要です。ここが最初のハードルになります。
  • RLVRなどでの後処理や精練工程は、運用面の複雑さとコストを増やします。
  • 実務では、データ生成やフィルタリングの自動化、既存の大規模生成モデルを使った半自動の軌跡ブートストラップが鍵になります。

現実的な進め方としては、小規模なパイロットでまずSRLを試すことをおすすめします。推論品質とトークン効率を確認した上で、必要に応じてRLVRで精練するハイブリッド運用に移ると、費用対効果の面で実用的です。

まとめと今後の展望

SRLは段階的なフィードバック内的独白を組み合わせることで、小型モデルに複雑な推論能力を付与する有望な手法です。実験結果は魅力的ですが、絶対的な性能や他環境での再現性、専門家軌跡の自動化といった課題は残っています。

研究と運用の両面で、まずは小さく試し、効果とコストのバランスを見ながら段階的に導入していくのが現実的な道です。将来的には、より強力な教師モデルや自己改善する学生モデルを用いた軌跡生成・フィルタリングの自動化が期待されます。

最後に一言。SRLは小さなモデルに長い階段を登らせるための「手すり」を提供してくれるような技術です。うまく活用すれば、コストを抑えつつ高い推論力を得られる可能性があります。ぜひ一度、手触りを確かめてみてください。