現場で効くOn-Policy蒸留入門
On-Policy蒸留は、小型モデルを低コストで実戦投入するための実践手法です。教師との逆KLを利用した密な報酬設計で安定的に性能向上を狙えます。AIME'24などのベンチで有望な結果が出ており、LoRA併用でさらにコスト削減が可能です。
続きを読むOn-Policy蒸留は、小型モデルを低コストで実戦投入するための実践手法です。教師との逆KLを利用した密な報酬設計で安定的に性能向上を狙えます。AIME'24などのベンチで有望な結果が出ており、LoRA併用でさらにコスト削減が可能です。
続きを読む