2026年4月、Google DeepMindが「Gemma 4」をリリースした。前作Gemma 3から大幅に進化したこのシリーズは、Hacker Newsでたちまちトップを飾り、「iPhoneでGemma 4が動く」という報告が続々と寄せられた。何がそれほど話題を呼んでいるのか——モデルの全貌と使い方を徹底的に解説する。

Gemma 4とは何か

Gemmaは、GoogleがオープンソースとしてリリースしているAIモデルファミリーだ。商用利用可能なApache 2.0ライセンスで提供されており、Hugging FaceやKaggleから誰でも無料でダウンロードできる。

Gemma 4では特に3点が強化された。

  • マルチモーダル対応の全モデルへの拡大:テキストだけでなく、画像・音声・動画も処理できる
  • エッジデバイス向けモデルの登場:スマートフォンやRaspberry Piで動く超軽量モデル「E2B」「E4B」を新設
  • 推論性能の飛躍的向上:31BモデルがAIME 2026数学コンペで89.2%を達成。前作27Bの20.8%から4倍以上の改善

モデルラインアップ:4種類の使い分け

Gemma 4は4つのモデルで構成される。用途とハードウェアに合わせて選ぶのがポイントだ。

モデル有効パラメータコンテキスト向いている用途
E2B2.3B(埋め込み込み5.1B)128kスマホ・IoT・オフライン実行
E4B4.5B(埋め込み込み8B)128k高性能スマホ・Raspberry Pi
26B A4BMoE(活性化4B/総計26B)256kコンシューマーGPU・IDE統合
31B31B(Dense)256kワークステーション・研究用途

E2B / E4Bの「E」とは何か

「E」はEdgeの頭文字だ。Per-Layer Embeddings(PLE)という新しいアーキテクチャを採用し、モデルの本体(2.3Bや4.5B)は小さく保ちながら、各層に専用の埋め込みベクトルを持たせることで、はるかに大きなモデルに匹敵する表現力を実現している。

E4Bは、通常のスマートフォンのSoCでもオフラインで動作する。インターネット接続なし、APIコストなし——これが「スマホで動くGemma 4」の正体だ。

26B A4BのMoEとは何か

「A4B」はActively-used 4 Billion(実際に活性化するのは4B分)という意味だ。Mixture-of-Experts(MoE)アーキテクチャを採用しており、全26Bのパラメータを一度に使うのではなく、入力ごとに必要な「専門家」ブロック(約4B相当)だけを選択的に起動する。

結果として、消費メモリと計算コストは4B相当に抑えつつ、26Bモデルとしての知識と表現力を引き出せる。コンシューマーGPU(RTX 4090クラス)でも快適に動作する。

圧倒的なベンチマーク結果

Gemma 3との比較で、Gemma 4の性能向上幅は特に数学とコーディングで際立っている。

数学・推論

ベンチマークGemma 4 31BGemma 4 26BGemma 4 E4BGemma 3 27B
MMLU Pro85.2%82.6%69.4%67.6%
AIME 202689.2%88.3%42.5%20.8%
GPQA Diamond84.3%82.3%58.6%42.4%

AIME 2026は米国の難関数学コンペティションだ。前作27Bが20.8%だったのに対し、31Bは89.2%——つまり10問中9問近くを正解できる水準まで到達した。

コーディング

ベンチマークGemma 4 31BGemma 4 26BGemma 4 E4BGemma 3 27B
LiveCodeBench v680.0%77.1%52.0%29.1%
Codeforces ELO21501718940110

Codeforces ELO 2150は、競技プログラミングの世界で「グランドマスター」相当の腕前だ。前作の110からの急上昇は、コーディング能力においてGemma 4が別次元の進化を遂げたことを示している。

マルチモーダル:テキスト以外も扱える

全モデルが以下のマルチモーダル入力に対応している。

画像処理

  • オブジェクト検出・位置特定
  • GUIの操作(スクリーンショットの解析)
  • ドキュメント解析(OCR含む)
  • 画像キャプション生成

音声処理(E2B/E4Bのみ)

  • 音声質問応答
  • 文字起こし(トランスクリプション)

動画処理

  • 音声付き動画の理解(小型モデル)
  • 映像のみの理解(大型モデル)

例えば、スマートフォンのスクリーンショットを渡して「このアプリの設定画面でダークモードをオンにするには?」と聞けば、GUIを解析して操作手順を教えてくれる——そんな使い方がE4Bクラスのモデルでも可能になった。

実際に使ってみる

方法1:transformersで使う(Python)

最も標準的な方法。Hugging FaceのTransformersライブラリ経由で動かせる。

from transformers import pipeline

pipe = pipeline("any-to-any", model="google/gemma-4-e4b-it")

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://example.com/photo.jpg"},
            {"type": "text", "text": "この画像について説明してください。"},
        ],
    }
]

output = pipe(messages, max_new_tokens=200)
print(output[0]["generated_text"])

方法2:llama.cppでローカル実行(macOS/Windows/Linux)

GGUFフォーマットに変換されたモデルをllama.cppで動かす方法。OpenAI API互換のサーバーとして起動できるため、既存のChatGPTクライアントアプリとそのまま接続できる。

# macOSの場合
brew install llama.cpp

# OpenAI API互換サーバーとして起動
llama-server -hf ggml-org/gemma-4-E4B-it-GGUF

起動後はlocalhost:8080にOpenAI互換のエンドポイントが立ち上がる。

方法3:MLXでApple Siliconに最適化(Mac M1/M2/M3/M4)

MacのApple Siliconユーザーには、MLXフレームワークが最も効率的だ。

pip install -U mlx-vlm

mlx_vlm.generate \
  --model google/gemma-4-E4B-it \
  --image photo.jpg \
  --prompt "この画像を詳しく説明してください"

4bit量子化モデルを使えば、M1 MacBook Air(16GB)でも26Bクラスのモデルが動作する。

方法4:Ollamaで一発起動

最も手軽な方法はOllamaだ。コマンド一つでモデルのダウンロードから実行まで完了する。

ollama run gemma4

チャット形式でそのまま対話できる。

関数呼び出し(Function Calling)への対応

エージェント開発者にとって重要なのが、ネイティブ関数呼び出しのサポートだ。ツール定義を渡せば、モデルが適切なタイミングで関数を呼び出す判断を下し、結果を統合した回答を返す。

WEATHER_TOOL = {
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "指定した都市の現在の天気を取得する",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "都市名"},
            },
            "required": ["city"],
        },
    },
}

このような定義をモデルに渡すと、「東京の天気を教えて」という質問に対して、自律的にget_weatherを呼び出して結果を返す動作が実現できる。

140言語対応と日本語の扱い

Gemma 4は140言語をサポートしており、「翻訳を超えた文化的文脈の理解」を掲げている。日本語もサポート言語に含まれており、日本語での質問応答・文書要約・コード生成などが可能だ。

前作Gemma 3でもすでに日本語対応はされていたが、Gemma 4では理解精度の向上が期待される。特にE4B以上のモデルであれば、日本語での複雑な指示にも対応できる。

「スマホで動くAI」が意味するもの

Gemma 4のE2B/E4Bが象徴するのは、AIの「分散化」の加速だ。

これまでのLLMは、大規模なクラウドサーバーが必要だった。高額なAPIコスト、通信遅延、プライバシーリスク——これらはクラウド依存ゆえの問題だ。エッジデバイスで動くモデルが実用レベルに達したことで、以下のユースケースが現実味を帯びてくる。

  • 医療現場での活用:患者データをクラウドに送らずにオンプレミスで処理
  • 工場・倉庫でのロボット制御:インターネットが不安定な環境でも自律動作
  • オフライン翻訳デバイス:海外旅行中でも高精度な翻訳
  • プライバシー重視のパーソナルアシスタント:会話データを端末外に出さない

まとめ:オープンAIの新たな基準点

Gemma 4は、オープンソースAIの水準を大きく引き上げた。

  • スマホサイズのモデルでもマルチモーダル対応
  • 31Bモデルは競合クローズドモデルに匹敵するベンチマーク
  • Apache 2.0ライセンスで商用利用も無制限
  • 多様なフレームワーク対応で導入の敷居が低い

「オープンソースモデルはクローズドモデルより劣る」という認識は、もはや過去のものになりつつある。Gemma 4 31BがAIME 2026で89.2%を叩き出したとき、その常識は静かに塗り替えられた。

エッジで動く小型モデルが本格化したこのタイミングは、AIを「クラウドのサービス」から「手元のツール」へと転換する節目になるかもしれない。