Google AI が 2026年6月、オンデバイスAI推論の効率化に向けた新しい軽量アーキテクチャ「Frozen Multi-Token Prediction(FMTP)」を発表しました。既に Pixel 9・Pixel 10 シリーズに段階的にロールアウト中です。

Frozen Multi-Token Prediction とは

FMTP は、既に展開されている Gemini Nano モデルの重み(パラメータ)を固定したまま、軽量な「Multi-Token Prediction ヘッド(MTP ヘッド)」という変換器層を追加する方式です。

従来のスペキュラティブデコーディングは、別個の小規模ドラフタモデルを必要としていましたが、FMTP はメインモデルの最終層の活性化状態を再利用することで、追加モデル不要で 複数トークンを同時に予測 できます。

この仕組みにより:

  • 後方互換性を完全に維持しながら高速化
  • メモリ消費を最小化(新規ドラフタモデルが不要)
  • 段階的なアップグレードが可能

Pixel デバイスでの具体的な成果

速度の向上

指標改善度
総処理速度50% 以上のスピードアップ(Pixel 9デバイス)
平均トークン予測数約2トークンの追加予測を実現
特定タスク(構文解析)55% のトークン受け入れ改善

メモリ効率化

FMTP 方式は、従来のスタンドアロンドラフタモデル(別チップ推論)と比較して 130MB のメモリ削減 を実現。これにより、Pixel の限定的なオンボードメモリで より多くの AI 機能をサポート可能に。

一般ユーザーへの実際の影響

実装済み Pixel AI 機能での改善例:

  • 通知要約(Magic Eraser など):「かなり高速化」され、リアルタイム処理が向上
  • プルーフリード(文章チェック)機能:応答遅延が短縮、ユーザー体験向上
  • バッテリー消費:処理効率向上により電力消費が削減
  • プライバシー保護:推論全体がデバイス上で完結するため機密性を維持

現在、これらの改善は Pixel 9・Pixel 10 シリーズに既にロールアウトされており、ユーザーは追加設定なしで体感できます。

技術的背景:オンデバイスAI競争の加速

スマートフォンメーカーにとって「デバイス上で最適化されたAI推論」は重要な競争領域に。Apple の A シリーズチップ向けの Neural Engine、Samsung の NPU 最適化と並び、Google も Pixel 特化型の推論パイプラインを強化しています。

FMTP はその最新成果であり、限定的なメモリ・電力リソースで最大の性能を引き出す エンジニアリングの粋を示しています。

展開予定

  • Pixel 9 シリーズ:既にロールアウト中
  • Pixel 10 シリーズ:6月27日以降のアップデートで段階的展開
  • その他 Android デバイス:Google との提携メーカーを対象に順次展開予定