小型モデルを現場で賢く使う――そんな話題が増えています。特にOn-Policy蒸留は、AIME'24対応を狙う現場で注目の実践手法です。訓練コストを抑えつつ高性能を引き出すための考え方と、実務で押さえるべきポイントを分かりやすくまとめました。まずは全体像から見ていきましょう。

On-Policy蒸留の基本と背景

現在の大規模言語モデルは、理解・知識・意思決定・実行といった能力を統合します。訓練工程は一般にPre-training、Mid-training、Post-trainingの三段階です。小型モデルはこの後段の調整で専門領域に特化させると、同規模の汎用モデルより優れた性能を出すことがあります。

後段訓練のアプローチは大きく二つに分かれます。On-policy訓練は学習中のモデル自身の出力(rollout)を使って学ぶ方法です。一方でOff-policy訓練は、教師モデルの出力分布を学生が模倣する蒸留を行います。簡単に言えば、On-policyは自分のミスを自分で学ぶ練習、Off-policyは先生の解答を写す勉強です。現場では、自分の挙動に即した修正が効くOn-policy蒸留が実用的に優れる場合が多いです。

RLとSFTの違いを現場目線で

ここで用語を簡単に説明します。RLは強化学習の略で、報酬を基に行動を学ぶ手法です。SFTは監視付き微調整で、正解データを真似して学びます。

RLの利点は自分で生成した軌跡を直接評価して学べる点です。しかし報酬が疎だと学習が非効率になります。SFTは高密度な信号で安定的に学べますが、長い系列で誤りが蓄積しやすく、未知領域への拡張が課題です。On-policy蒸留は、RLの現場適用性と蒸留の密な報酬を組み合わせる狙いがあります。

オンポリシー蒸留では、学習時に逐次的に教師評価を行い、トークンごとに逆KL(Reverse KL)を報酬として使うことが多いです。逆KLは教師分布と学習者分布の差を測る指標で、学習者がどれだけ教師に近づいたかを示します。

コストと性能の関係(実例)

実験データを見ると、手法ごとのトレードオフが明瞭です。SFTのみのケースではAIME'24が55.0%で、GPQA-Diamondは55.6%でした。GPU時間は未報告です。RLを追加するとAIME'24が67.6%、GPQAが61.3%、GPU時間は約17,920時間という報告があります。

対照的に、オンポリシー蒸留は同等かそれ以上の性能を、より低いコストで狙える可能性が高いとされています。例えば、400kステップのSFTチェックポイントから始めると、オンポリシー蒸留は約150ステップでAIME'24の70%に到達したという報告があります。これは約7.7万プロンプト想定で、1プロンプトあたり4サンプルの計算です。

LoRAなどの効率化手法を併用すると、さらに学習コストを下げられます。Qwen3の事例では、オンポリシー蒸留がRLの約1/10のコストで同等の性能に達したという指摘もあります。密な報酬設計が効率に直結する良い例です。

実装の流れとTinkerの活用

実装はTinkerの訓練APIを使えば再現しやすいと報告されています。実装手順は概ね次の流れです。

  1. 教師クライアントの初期化(base_modelやチェックポイント指定)
  2. 学習者のサンプリングとlogprob取得
  3. 教師のlogprobsと照合して逆KLを計算
  4. 逆KLを報酬にして重要サンプリング損失で更新

ここで重要なのは、サンプリング時に学習者のlogprobを入力に使う点です。密なトークン単位の報酬は収束の安定化や計算効率の向上に寄与します。Tinker cookbookには実装例があり、RL実装への小さな変更でオンポリシー蒸留に移行できる場合もあります。

なお現場での再現性を高めるには、実装環境の統一や手順のドキュメント化が欠かせません。

現場での落としどころと運用上の注意

オンポリシー蒸留は、ポストトレーニングのコスト効率を高めつつ、数学的推論とドメイン知識を両立させる可能性があります。小型モデルをプライベート環境で運用する際にも有用です。継続的に更新できて安全性も保ちやすい点は、企業運用の大きな利点です。

ただし実用化にはいくつかの注意点があります。教師モデルの準備、適切な報酬設計、データ管理が必須です。報酬が誤誘導を生まないように設計し、評価指標をきちんと定義することが成功の鍵です。

実務向けチェックリスト

まずはSFTで安定したチェックポイントを作ること。次に小さなコストでオンポリシー蒸留を試し、性能とコストのバランスを評価してください。LoRAや省メモリ手法の併用も忘れずに。最後に評価指標とデータ運用フローを文書化しておきましょう。

まとめると、オンポリシー蒸留は現場の要件に合わせて小型モデルを賢く育てるための実践的な選択肢です。コスト効率と適用性を両立させたい現場では、積極的に検討する価値があります。