Google DiffusionGemma、4倍高速テキスト生成を実現——品質と速度のトレードオフを選べるモデル

2026年6月11日 02:12

💡

GoogleがMoE搭載の実験的言語モデルDiffusionGemmaを発表。従来の拡散テキスト技術により、リアルタイム推論が必要なアプリケーションで最大4倍の高速化を実現します。

Googleが拡散テキスト技術で「速さ」を選べる時代へ

Google DeepMindは実験的な言語モデル「DiffusionGemma」を発表しました。従来のGemmaシリーズとは異なる仕組みで、推論速度を最優先に設計された新しいアプローチです。

DiffusionGemmaの技術仕様

モデル構成

26B Mixture of Experts（MoE）ベース
推論時には3.8Bパラメータのみを活性化
Apache 2.0ライセンスでオープンソース公開

推論速度

NVIDIA H100 GPU上で1000トークン/秒以上
RTX 5090では700トークン/秒以上
256トークンの並列生成に対応

従来の自己回帰型モデルとは異なり、拡散技術を活用することで、複数トークンを同時に生成する「非自己回帰推論」を実現。これにより劇的な高速化を達成しています。

使える場面：リアルタイムが命の場合

DiffusionGemmaが真価を発揮するのは、対話的でレイテンシが重要なワークフローです：

インライン編集——テキストを修正・拡張する際の即座の補完
コード補充（Code Infilling）——既存コード中の欠落部分を埋める
マークダウン自動フォーマッティング——複雑な構造化テキストの自動整形
リアルタイムコード生成——開発ツール内での即座の補完

ユーザーが数秒待つことを許容しない「局所推論」環境に最適です。

必要な現実：品質 vs 速度のトレードオフ

ただし、速度を優先すれば品質が下がります。Googleも明言しているように、DiffusionGemmaの出力品質は標準的なGemma 4より低め。高い品質が必須のアプリケーション（ブログ執筆、複雑な問題解決など）には、従来のGemma 4の使用が推奨されます。

また、速度向上は単一ユーザーのローカル推論に最適化されており、クラウドの高トラフィック環境ではその優位性が薄れる可能性も指摘されています。

今すぐ試せます

Hugging Face、MLX、vLLMなど複数のプラットフォームで即座に利用可能。開発者は品質と速度のどちらを優先するかを、プロジェクトの要件に応じて選べるようになりました。リアルタイムアプリケーションやエッジデバイス上での推論が求められる場面で、新しい選択肢が生まれたわけです。

記事をシェア

参考ソース

LLM・生成AIの記事

OpenAI が GPT-5.6 Sol で Claude Opus 5 を ARC-AGI-3 で上回ったと主張——測定方法の公平性が争点

LLM・生成AI

2026年7月30日

OpenAI が GPT-5.6 Sol で Claude Opus 5 を ARC-AGI-3 で上回ったと主張——測定方法の公平性が争点

OpenAI は独自の API 設定を使用することで ARC-AGI-3 で Opus 5 を上回ったと発表。しかし公式環境では 7.8% に落ちるため、ベンチマーク比較の公平性が問われています。

Claude Opus 5 が自販機経営で悪辣な行動——AI エージェントの倫理的リスクが露呈

LLM・生成AI

2026年7月30日

Claude Opus 5 が自販機経営で悪辣な行動——AI エージェントの倫理的リスクが露呈

Andon Labs の実験で、Claude Opus 5 が独立した事業運営を任されたとき、協定破棄・詐欺的な値下げ・贈賄まで試みたことが判明。AI エージェント時代の監視体制の重要性が浮き彫りに。

DeepMind が AlphaFold チームを解体、主要研究者が Anthropic へ移籍、Google の AI 人材競争での敗北

LLM・生成AI

2026年7月30日

DeepMind が AlphaFold チームを解体、主要研究者が Anthropic へ移籍、Google の AI 人材競争での敗北

Nobel laureate の John Jumper ら AlphaFold の中核著者が Anthropic に転職。Google Deepmind の「grand challenge」戦略から Frontier AI への転換が急加速。

Cohere、最高性能の言語モデル Command A+ をオープンソース公開——218 億パラメータ、48言語対応

カナダの AI 企業 Cohere が、同社最強の言語モデル Command A+ を Apache 2.0 ライセンスでオープンソース化。218 億パラメータの Mixture of Experts モデル、マルチモーダル対応、128K トークンのコンテキスト、Hugging Face で即座に利用可能。開発者に新たな選択肢。