序章

2025年を目前に、LoRAとFullFTのどちらを選ぶかで悩む現場が増えています。LoRAは低ランク適応という手法で、モデルの一部だけ小さな更新を加えて学習する方法です。FullFTはモデル全体を最後まで微調整する、従来の完全なファインチューニングです。

ここでは実証データを踏まえて、実務での落としどころを分かりやすく整理します。専門的な話も、例え話を交えて読みやすく解説します。

小規模データではLoRAが頼りになる

少ないデータでの supervised fine-tuning では、LoRAがFullFTに匹敵することがよくあります。データ量が小さいときは、LoRAの方がサンプル効率が良い場合が多いのです。例えるなら、小さな荷物ならサブバッグで十分なような感覚です。

ただしデータが増えてLoRAの「容量」を超えると、性能差が出ます。容量とはLoRAが保持できる情報量の上限だと考えてください。容量不足が心配な場面ではFullFTが有利です。

全層適用で効果が上がる場合が多い

LoRAをAttention層だけではなく、MLPやMoEといった全層に適用すると、学習効率と効果が上がる傾向があります。これは情報の多くがMLP側にも分布しているためです。

とはいえランクの選び方次第で結果は変わります。全層が常に勝つわけではありません。最適なランク設計が重要です。

データ量と容量のバランスが鍵

肝心なのは、データ量とLoRAの容量のバランスです。データが容量を超えない範囲ならLoRAで十分なことが多いです。逆に大量データや高容量が必要なタスクではFullFTが優位になります。

バッチサイズや学習率などのハイパーパラメータも影響します。LoRAは最適学習率がFullFTの約10倍になるという観察もあり、調整が肝心です。

RL領域では低ランクでも強い理由

強化学習(RL)では、情報量が相対的に少ない場面が多く、Rank1でもLoRAがFullFTに近い結果を出した実験があります。MATHやGSM8Kでの検証でも同様の傾向が報告されました。

RLではLoRAの方が少ない容量で高性能を引き出せる場面が多いのです。これは情報理論的にも納得しやすい挙動です。

実務への落としどころと推奨方針

現場での実務判断は次の考え方が便利です。

  • まずデータ量を見積もる。容量を超えないならLoRAを検討する。
  • 高い汎化や大量データが必要ならFullFTを優先する。
  • 全層LoRAを試し、ランクを複数パターンで評価する。
  • LoRAは学習率設定が重要なので、ハイパーパラメータ探索を行う。

ツールとしては、容量推定やランク推奨を自動化する仕組みがあると安心です。

今後の課題と展望

残る課題は、容量の正確な見積り法と、超大規模モデルでの実証です。低リスク領域は多くのpost-trainingケースをカバーしますが、RLや超大規模環境ではさらなる検証が必要です。

まとめると、LoRAは条件次第でFullFTに迫る力を持っています。ポイントはデータ量と層の選び方です。設計を慎重に行えば、コストと性能のよいバランスが期待できます。