Google、Gemma 4 にマルチトークン予測搭載で推論速度を3倍に高速化
Google は、Gemma 4 オープンモデルにマルチトークン予測機能を追加し、テキスト生成速度を最大3倍に加速。小規模な補助モデルが複数トークンを同時に提案し、メインモデルが一度に検証する新技術を採用しました。
Google は本日、オープンソースの Gemma 4 モデルファミリーにマルチトークン予測(Multi-Token Prediction) ドラフター機能を追加しました。この新機能により、テキスト生成の速度を最大3倍に高速化することができます。
マルチトークン予測とは
従来の言語モデルは、1ステップで1つのトークン(単語の一部)を生成していました。一方、Gemma 4 の新しいマルチトークン予測は、小規模な補助モデル(ドラフター)が複数のトークンを一度に提案し、メインモデルがそれらを単一パスで検証する仕組みです。
これは「推測デコード(Speculative Decoding)」の実装で、メインモデルがデータ読み込み中に発生するアイドル時間を活用し、計算効率を大幅に向上させています。
性能と品質
THE DECODER の報告によると、この技術により:
- テキスト生成速度を最大3倍加速
- 品質低下なし(出力の精度・正確性は変わらない)
- Gemma 4 は既に6000万回以上のダウンロード実績を有するほか、エンタープライズと研究コミュニティの両方で採用
提供形式と利用方法
Ars Technica によると、新しいドラフターモデルは Apache 2.0 ライセンスでオープンソース公開されており、以下のプラットフォームで即座に利用可能です:
- Hugging Face
- Kaggle
開発者やエンタープライズユーザーは、これらのプラットフォームから簡単にダウンロード・統合できます。
業界への影響
Gemma 4 のマルチトークン予測は、オープンモデルの推論効率を大きく改善します。クラウドコストの削減、ローカル推論での高速化、エッジデバイスでの実装が可能になる可能性があります。同時に、閉鎖的な商用モデルとの競争力を高め、オープンソース AI エコシステムの実用性をさらに向上させています。