Google、Pixel上の Gemini Nano を50%高速化——「Frozen Multi-Token Prediction」で次世代オンデバイスAIを実現
Google AI が新技術「Frozen Multi-Token Prediction(FMTP)」を発表。既存 Gemini Nano モデルの重みを固定し軽量な変換器を追加することで、Pixel 9/10 上での処理速度を50%以上高速化。メモリ効率も大幅改善。
Google AI が 2026年6月、オンデバイスAI推論の効率化に向けた新しい軽量アーキテクチャ「Frozen Multi-Token Prediction(FMTP)」を発表しました。既に Pixel 9・Pixel 10 シリーズに段階的にロールアウト中です。
Frozen Multi-Token Prediction とは
FMTP は、既に展開されている Gemini Nano モデルの重み(パラメータ)を固定したまま、軽量な「Multi-Token Prediction ヘッド(MTP ヘッド)」という変換器層を追加する方式です。
従来のスペキュラティブデコーディングは、別個の小規模ドラフタモデルを必要としていましたが、FMTP はメインモデルの最終層の活性化状態を再利用することで、追加モデル不要で 複数トークンを同時に予測 できます。
この仕組みにより:
- 後方互換性を完全に維持しながら高速化
- メモリ消費を最小化(新規ドラフタモデルが不要)
- 段階的なアップグレードが可能
Pixel デバイスでの具体的な成果
速度の向上
| 指標 | 改善度 |
|---|---|
| 総処理速度 | 50% 以上のスピードアップ(Pixel 9デバイス) |
| 平均トークン予測数 | 約2トークンの追加予測を実現 |
| 特定タスク(構文解析) | 55% のトークン受け入れ改善 |
メモリ効率化
FMTP 方式は、従来のスタンドアロンドラフタモデル(別チップ推論)と比較して 130MB のメモリ削減 を実現。これにより、Pixel の限定的なオンボードメモリで より多くの AI 機能をサポート可能に。
一般ユーザーへの実際の影響
実装済み Pixel AI 機能での改善例:
- 通知要約(Magic Eraser など):「かなり高速化」され、リアルタイム処理が向上
- プルーフリード(文章チェック)機能:応答遅延が短縮、ユーザー体験向上
- バッテリー消費:処理効率向上により電力消費が削減
- プライバシー保護:推論全体がデバイス上で完結するため機密性を維持
現在、これらの改善は Pixel 9・Pixel 10 シリーズに既にロールアウトされており、ユーザーは追加設定なしで体感できます。
技術的背景:オンデバイスAI競争の加速
スマートフォンメーカーにとって「デバイス上で最適化されたAI推論」は重要な競争領域に。Apple の A シリーズチップ向けの Neural Engine、Samsung の NPU 最適化と並び、Google も Pixel 特化型の推論パイプラインを強化しています。
FMTP はその最新成果であり、限定的なメモリ・電力リソースで最大の性能を引き出す エンジニアリングの粋を示しています。
展開予定
- Pixel 9 シリーズ:既にロールアウト中
- Pixel 10 シリーズ:6月27日以降のアップデートで段階的展開
- その他 Android デバイス:Google との提携メーカーを対象に順次展開予定