Google は本日、オープンソースの Gemma 4 モデルファミリーにマルチトークン予測(Multi-Token Prediction) ドラフター機能を追加しました。この新機能により、テキスト生成の速度を最大3倍に高速化することができます。

マルチトークン予測とは

従来の言語モデルは、1ステップで1つのトークン(単語の一部)を生成していました。一方、Gemma 4 の新しいマルチトークン予測は、小規模な補助モデル(ドラフター)が複数のトークンを一度に提案し、メインモデルがそれらを単一パスで検証する仕組みです。

これは「推測デコード(Speculative Decoding)」の実装で、メインモデルがデータ読み込み中に発生するアイドル時間を活用し、計算効率を大幅に向上させています。

性能と品質

THE DECODER の報告によると、この技術により:

  • テキスト生成速度を最大3倍加速
  • 品質低下なし(出力の精度・正確性は変わらない)
  • Gemma 4 は既に6000万回以上のダウンロード実績を有するほか、エンタープライズと研究コミュニティの両方で採用

提供形式と利用方法

Ars Technica によると、新しいドラフターモデルは Apache 2.0 ライセンスでオープンソース公開されており、以下のプラットフォームで即座に利用可能です:

  • Hugging Face
  • Kaggle

開発者やエンタープライズユーザーは、これらのプラットフォームから簡単にダウンロード・統合できます。

業界への影響

Gemma 4 のマルチトークン予測は、オープンモデルの推論効率を大きく改善します。クラウドコストの削減、ローカル推論での高速化、エッジデバイスでの実装が可能になる可能性があります。同時に、閉鎖的な商用モデルとの競争力を高め、オープンソース AI エコシステムの実用性をさらに向上させています。