1.5Bの逆襲：VibeThinkerが示した勝ち筋

2025年11月13日 18:30

💡

VibeThinker-1.5Bは15億パラメータ級ながら数学やコードで大規模モデルに迫る成果を示しました。エッジ展開や低コスト運用に魅力があり、導入前には精度・堅牢性・ガバナンスの検証を推奨します。

小さなモデルが大物を打ち負かす場面を見ました。VibeThinker-1.5Bの登場は、パラメータ数だけで性能を語れないことを改めて示しています。今回は公開内容と技術の肝、ベンチマーク結果、企業が導入する際のチェックポイントをわかりやすくまとめます。

VibeThinker-1.5Bとは

VibeThinker-1.5Bは約15億パラメータの言語モデルです。元はAlibabaのQwen2.5-Math-1.5Bをファインチューニングして派生しました。モデル本体はMITライセンスで公開され、Hugging FaceやGitHub、ModelScopeから入手可能です。技術報告はarXivにあり、ポストトレーニングはNVIDIA H800で合計約3,900 GPU時間を消費したとされています。

ライセンスと技術レポートが同時に公開されたことは重要です。研究者や企業が再現・検証・商用展開をしやすくなります。一方で、プリトレーニング段階のコストやデータ構成は限定的にしか明かされていません。総コストを把握するには追加情報が必要です。

ベンチマークで見えた“逆転”ポイント

主要ベンチマークのスコアは以下の通りです：

AIME25：74.4
LiveCodeBench v6：51.1
GPQA-Diamond：46.7

比較対象の一部は次の通りです：GPT-OSS-20B-Medium（72.1 / 54.9 / 66.0）、Claude Opus 4（69.2 / 56.6 / 79.6）、MiniMax M1（74.6 / 62.3 / 69.2）、DeepSeek R1（70.0 / 65.9 / 71.5）。

注目すべき点は、数学やコードなどの構造化された論理タスクでVibeThinkerが大規模モデルと同等、あるいは上回る結果を出したことです。例えばAIME24ではKimi K2（1.09T）を上回る場面も報告されています。一方でGPQAのような百科事典的な知識や幅広い常識を必要とするタスクでは、GPT-4.1やClaudeに及ばないこともあります。

要するに、用途次第で小型モデルが“最適解”になり得るのです。大切なのは目的に合ったモデル選定です。

何が効いたのか：Spectrum-to-Signal（SSP）と訓練手法

開発チームは独自の訓練フレームワークを「Spectrum-to-Signal Principle（SSP）」と名付けました。ここで出てくる専門用語を簡単に説明します：

SFT（監督微調整）：正解例でモデルを微調整する工程です。
MGPO（MaxEnt-Guided Policy Optimization）：エントロピーを手がかりに学習を進める強化学習的手法です。

SSPは2段階です。まず“Spectrumフェーズ”で多様な解法や正解候補を網羅的に生成します。そこから“Signalフェーズ”でMGPOを使い、不確実性の高い課題を重点的に学習させます。つまり、探索（多くの解を見つける）と精緻化（正しい解を増幅する）を分けて扱う設計です。

このアプローチは、小さなモデルが持つ“信号の弱さ”を増幅する仕掛けといえます。計算資源を節約しつつ、重要な経路を強化するための工夫です。ただし、プリトレーニングの影響が大きい点や再現検証が限られる点は留意が必要です。

企業にとっての実利と注意点

開発チームは推奨推論設定を示しています（temperature=0.6、top_p=0.95、max_tokens=40960）。提出報告では、推論コストが大規模モデルより20～70倍安いとする推定や、ポストトレーニング費用が一部競合より30～60倍有利とする記述があります。ただし、具体的な金額は完全には公開されていません。

小型モデルならではの利点は明確です。低レイテンシーと低コスト。エッジやオンプレミスでの運用が現実的になります。これによりデータ流出リスクの低下や応答速度の改善が期待できます。モバイルや車載でのオンデバイス推論も視野に入ります。

一方で実運用前には次の点を必ず確認してください：