Google DiffusionGemma、4倍高速テキスト生成を実現——品質と速度のトレードオフを選べるモデル
GoogleがMoE搭載の実験的言語モデルDiffusionGemmaを発表。従来の拡散テキスト技術により、リアルタイム推論が必要なアプリケーションで最大4倍の高速化を実現します。
Googleが拡散テキスト技術で「速さ」を選べる時代へ
Google DeepMindは実験的な言語モデル「DiffusionGemma」を発表しました。従来のGemmaシリーズとは異なる仕組みで、推論速度を最優先に設計された新しいアプローチです。
DiffusionGemmaの技術仕様
モデル構成
- 26B Mixture of Experts(MoE)ベース
- 推論時には3.8Bパラメータのみを活性化
- Apache 2.0ライセンスでオープンソース公開
推論速度
- NVIDIA H100 GPU上で1000トークン/秒以上
- RTX 5090では700トークン/秒以上
- 256トークンの並列生成に対応
従来の自己回帰型モデルとは異なり、拡散技術を活用することで、複数トークンを同時に生成する「非自己回帰推論」を実現。これにより劇的な高速化を達成しています。
使える場面:リアルタイムが命の場合
DiffusionGemmaが真価を発揮するのは、対話的でレイテンシが重要なワークフローです:
- インライン編集——テキストを修正・拡張する際の即座の補完
- コード補充(Code Infilling)——既存コード中の欠落部分を埋める
- マークダウン自動フォーマッティング——複雑な構造化テキストの自動整形
- リアルタイムコード生成——開発ツール内での即座の補完
ユーザーが数秒待つことを許容しない「局所推論」環境に最適です。
必要な現実:品質 vs 速度のトレードオフ
ただし、速度を優先すれば品質が下がります。Googleも明言しているように、DiffusionGemmaの出力品質は標準的なGemma 4より低め。高い品質が必須のアプリケーション(ブログ執筆、複雑な問題解決など)には、従来のGemma 4の使用が推奨されます。
また、速度向上は単一ユーザーのローカル推論に最適化されており、クラウドの高トラフィック環境ではその優位性が薄れる可能性も指摘されています。
今すぐ試せます
Hugging Face、MLX、vLLMなど複数のプラットフォームで即座に利用可能。開発者は品質と速度のどちらを優先するかを、プロジェクトの要件に応じて選べるようになりました。リアルタイムアプリケーションやエッジデバイス上での推論が求められる場面で、新しい選択肢が生まれたわけです。