現場で効くOn-Policy蒸留入門

2026年1月5日 07:30

💡

On-Policy蒸留は、小型モデルを低コストで実戦投入するための実践手法です。教師との逆KLを利用した密な報酬設計で安定的に性能向上を狙えます。AIME'24などのベンチで有望な結果が出ており、LoRA併用でさらにコスト削減が可能です。

小型モデルを現場で賢く使う――そんな話題が増えています。特にOn-Policy蒸留は、AIME'24対応を狙う現場で注目の実践手法です。訓練コストを抑えつつ高性能を引き出すための考え方と、実務で押さえるべきポイントを分かりやすくまとめました。まずは全体像から見ていきましょう。

On-Policy蒸留の基本と背景

現在の大規模言語モデルは、理解・知識・意思決定・実行といった能力を統合します。訓練工程は一般にPre-training、Mid-training、Post-trainingの三段階です。小型モデルはこの後段の調整で専門領域に特化させると、同規模の汎用モデルより優れた性能を出すことがあります。

後段訓練のアプローチは大きく二つに分かれます。On-policy訓練は学習中のモデル自身の出力（rollout）を使って学ぶ方法です。一方でOff-policy訓練は、教師モデルの出力分布を学生が模倣する蒸留を行います。簡単に言えば、On-policyは自分のミスを自分で学ぶ練習、Off-policyは先生の解答を写す勉強です。現場では、自分の挙動に即した修正が効くOn-policy蒸留が実用的に優れる場合が多いです。

RLとSFTの違いを現場目線で

ここで用語を簡単に説明します。RLは強化学習の略で、報酬を基に行動を学ぶ手法です。SFTは監視付き微調整で、正解データを真似して学びます。

RLの利点は自分で生成した軌跡を直接評価して学べる点です。しかし報酬が疎だと学習が非効率になります。SFTは高密度な信号で安定的に学べますが、長い系列で誤りが蓄積しやすく、未知領域への拡張が課題です。On-policy蒸留は、RLの現場適用性と蒸留の密な報酬を組み合わせる狙いがあります。

オンポリシー蒸留では、学習時に逐次的に教師評価を行い、トークンごとに逆KL（Reverse KL）を報酬として使うことが多いです。逆KLは教師分布と学習者分布の差を測る指標で、学習者がどれだけ教師に近づいたかを示します。

コストと性能の関係（実例）

実験データを見ると、手法ごとのトレードオフが明瞭です。SFTのみのケースではAIME'24が55.0%で、GPQA-Diamondは55.6%でした。GPU時間は未報告です。RLを追加するとAIME'24が67.6%、GPQAが61.3%、GPU時間は約17,920時間という報告があります。

対照的に、オンポリシー蒸留は同等かそれ以上の性能を、より低いコストで狙える可能性が高いとされています。例えば、400kステップのSFTチェックポイントから始めると、オンポリシー蒸留は約150ステップでAIME'24の70%に到達したという報告があります。これは約7.7万プロンプト想定で、1プロンプトあたり4サンプルの計算です。

LoRAなどの効率化手法を併用すると、さらに学習コストを下げられます。Qwen3の事例では、オンポリシー蒸留がRLの約1/10のコストで同等の性能に達したという指摘もあります。密な報酬設計が効率に直結する良い例です。