Gemma 4 完全ガイド：スマホで動くGoogle最新オープンモデルの実力と使い方

2026年4月6日 01:00

💡

Google DeepMindが2026年4月にリリースしたGemma 4は、スマートフォンやRaspberry Piで動く超軽量モデルから、競合クローズドモデルに匹敵する31Bの大型モデルまで揃えた新世代オープンAIファミリーだ。マルチモーダル対応、Apache 2.0ライセンス、140言語対応という三拍子が揃い、AI活用の裾野を一気に広げる可能性を秘めている。

2026年4月、Google DeepMindが「Gemma 4」をリリースした。前作Gemma 3から大幅に進化したこのシリーズは、Hacker Newsでたちまちトップを飾り、「iPhoneでGemma 4が動く」という報告が続々と寄せられた。何がそれほど話題を呼んでいるのか——モデルの全貌と使い方を徹底的に解説する。

Gemma 4とは何か

Gemmaは、GoogleがオープンソースとしてリリースしているAIモデルファミリーだ。商用利用可能なApache 2.0ライセンスで提供されており、Hugging FaceやKaggleから誰でも無料でダウンロードできる。

Gemma 4では特に3点が強化された。

マルチモーダル対応の全モデルへの拡大：テキストだけでなく、画像・音声・動画も処理できる
エッジデバイス向けモデルの登場：スマートフォンやRaspberry Piで動く超軽量モデル「E2B」「E4B」を新設
推論性能の飛躍的向上：31BモデルがAIME 2026数学コンペで89.2%を達成。前作27Bの20.8%から4倍以上の改善

モデルラインアップ：4種類の使い分け

Gemma 4は4つのモデルで構成される。用途とハードウェアに合わせて選ぶのがポイントだ。

モデル	有効パラメータ	コンテキスト	向いている用途
E2B	2.3B（埋め込み込み5.1B）	128k	スマホ・IoT・オフライン実行
E4B	4.5B（埋め込み込み8B）	128k	高性能スマホ・Raspberry Pi
26B A4B	MoE（活性化4B/総計26B）	256k	コンシューマーGPU・IDE統合
31B	31B（Dense）	256k	ワークステーション・研究用途

E2B / E4Bの「E」とは何か

「E」はEdgeの頭文字だ。Per-Layer Embeddings（PLE）という新しいアーキテクチャを採用し、モデルの本体（2.3Bや4.5B）は小さく保ちながら、各層に専用の埋め込みベクトルを持たせることで、はるかに大きなモデルに匹敵する表現力を実現している。

E4Bは、通常のスマートフォンのSoCでもオフラインで動作する。インターネット接続なし、APIコストなし——これが「スマホで動くGemma 4」の正体だ。

26B A4BのMoEとは何か

「A4B」はActively-used 4 Billion（実際に活性化するのは4B分）という意味だ。Mixture-of-Experts（MoE）アーキテクチャを採用しており、全26Bのパラメータを一度に使うのではなく、入力ごとに必要な「専門家」ブロック（約4B相当）だけを選択的に起動する。

結果として、消費メモリと計算コストは4B相当に抑えつつ、26Bモデルとしての知識と表現力を引き出せる。コンシューマーGPU（RTX 4090クラス）でも快適に動作する。

圧倒的なベンチマーク結果

Gemma 3との比較で、Gemma 4の性能向上幅は特に数学とコーディングで際立っている。

数学・推論

ベンチマーク	Gemma 4 31B	Gemma 4 26B	Gemma 4 E4B	Gemma 3 27B
MMLU Pro	85.2%	82.6%	69.4%	67.6%
AIME 2026	89.2%	88.3%	42.5%	20.8%
GPQA Diamond	84.3%	82.3%	58.6%	42.4%

AIME 2026は米国の難関数学コンペティションだ。前作27Bが20.8%だったのに対し、31Bは89.2%——つまり10問中9問近くを正解できる水準まで到達した。

コーディング

ベンチマーク	Gemma 4 31B	Gemma 4 26B	Gemma 4 E4B	Gemma 3 27B
LiveCodeBench v6	80.0%	77.1%	52.0%	29.1%
Codeforces ELO	2150	1718	940	110

Codeforces ELO 2150は、競技プログラミングの世界で「グランドマスター」相当の腕前だ。前作の110からの急上昇は、コーディング能力においてGemma 4が別次元の進化を遂げたことを示している。

マルチモーダル：テキスト以外も扱える

全モデルが以下のマルチモーダル入力に対応している。

画像処理

オブジェクト検出・位置特定
GUIの操作（スクリーンショットの解析）
ドキュメント解析（OCR含む）
画像キャプション生成

音声処理（E2B/E4Bのみ）

音声質問応答
文字起こし（トランスクリプション）

動画処理

音声付き動画の理解（小型モデル）
映像のみの理解（大型モデル）

例えば、スマートフォンのスクリーンショットを渡して「このアプリの設定画面でダークモードをオンにするには？」と聞けば、GUIを解析して操作手順を教えてくれる——そんな使い方がE4Bクラスのモデルでも可能になった。

実際に使ってみる

方法1：transformersで使う（Python）

最も標準的な方法。Hugging FaceのTransformersライブラリ経由で動かせる。

from transformers import pipeline

pipe = pipeline("any-to-any", model="google/gemma-4-e4b-it")

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://example.com/photo.jpg"},
            {"type": "text", "text": "この画像について説明してください。"},
        ],
    }
]

output = pipe(messages, max_new_tokens=200)
print(output[0]["generated_text"])

方法2：llama.cppでローカル実行（macOS/Windows/Linux）

GGUFフォーマットに変換されたモデルをllama.cppで動かす方法。OpenAI API互換のサーバーとして起動できるため、既存のChatGPTクライアントアプリとそのまま接続できる。

# macOSの場合
brew install llama.cpp

# OpenAI API互換サーバーとして起動
llama-server -hf ggml-org/gemma-4-E4B-it-GGUF

起動後はlocalhost:8080にOpenAI互換のエンドポイントが立ち上がる。

方法3：MLXでApple Siliconに最適化（Mac M1/M2/M3/M4）

MacのApple Siliconユーザーには、MLXフレームワークが最も効率的だ。

pip install -U mlx-vlm

mlx_vlm.generate \
  --model google/gemma-4-E4B-it \
  --image photo.jpg \
  --prompt "この画像を詳しく説明してください"

4bit量子化モデルを使えば、M1 MacBook Air（16GB）でも26Bクラスのモデルが動作する。

方法4：Ollamaで一発起動

最も手軽な方法はOllamaだ。コマンド一つでモデルのダウンロードから実行まで完了する。

ollama run gemma4

チャット形式でそのまま対話できる。

関数呼び出し（Function Calling）への対応

エージェント開発者にとって重要なのが、ネイティブ関数呼び出しのサポートだ。ツール定義を渡せば、モデルが適切なタイミングで関数を呼び出す判断を下し、結果を統合した回答を返す。

WEATHER_TOOL = {
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "指定した都市の現在の天気を取得する",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "都市名"},
            },
            "required": ["city"],
        },
    },
}

このような定義をモデルに渡すと、「東京の天気を教えて」という質問に対して、自律的にget_weatherを呼び出して結果を返す動作が実現できる。

140言語対応と日本語の扱い

Gemma 4は140言語をサポートしており、「翻訳を超えた文化的文脈の理解」を掲げている。日本語もサポート言語に含まれており、日本語での質問応答・文書要約・コード生成などが可能だ。

前作Gemma 3でもすでに日本語対応はされていたが、Gemma 4では理解精度の向上が期待される。特にE4B以上のモデルであれば、日本語での複雑な指示にも対応できる。

「スマホで動くAI」が意味するもの

Gemma 4のE2B/E4Bが象徴するのは、AIの「分散化」の加速だ。

これまでのLLMは、大規模なクラウドサーバーが必要だった。高額なAPIコスト、通信遅延、プライバシーリスク——これらはクラウド依存ゆえの問題だ。エッジデバイスで動くモデルが実用レベルに達したことで、以下のユースケースが現実味を帯びてくる。

医療現場での活用：患者データをクラウドに送らずにオンプレミスで処理
工場・倉庫でのロボット制御：インターネットが不安定な環境でも自律動作
オフライン翻訳デバイス：海外旅行中でも高精度な翻訳
プライバシー重視のパーソナルアシスタント：会話データを端末外に出さない

まとめ：オープンAIの新たな基準点

Gemma 4は、オープンソースAIの水準を大きく引き上げた。

スマホサイズのモデルでもマルチモーダル対応
31Bモデルは競合クローズドモデルに匹敵するベンチマーク
Apache 2.0ライセンスで商用利用も無制限
多様なフレームワーク対応で導入の敷居が低い

「オープンソースモデルはクローズドモデルより劣る」という認識は、もはや過去のものになりつつある。Gemma 4 31BがAIME 2026で89.2%を叩き出したとき、その常識は静かに塗り替えられた。

エッジで動く小型モデルが本格化したこのタイミングは、AIを「クラウドのサービス」から「手元のツール」へと転換する節目になるかもしれない。

Gemma 4 完全ガイド：スマホで動くGoogle最新オープンモデルの実力と使い方

Gemma 4とは何か

モデルラインアップ：4種類の使い分け

E2B / E4Bの「E」とは何か

26B A4BのMoEとは何か

圧倒的なベンチマーク結果

数学・推論

コーディング

マルチモーダル：テキスト以外も扱える

実際に使ってみる

方法1：transformersで使う（Python）

方法2：llama.cppでローカル実行（macOS/Windows/Linux）

方法3：MLXでApple Siliconに最適化（Mac M1/M2/M3/M4）

方法4：Ollamaで一発起動

関数呼び出し（Function Calling）への対応

140言語対応と日本語の扱い

「スマホで動くAI」が意味するもの

まとめ：オープンAIの新たな基準点

記事をシェア

タグ

参考ソース

Alibaba の HopChain、視覚言語モデルの多段推論能力を改善

OpenAIが「知性の時代の産業政策」を公表——国民ファンドや自動安全網を柱に

Gemma 4 完全ガイド：スマホで動くGoogle最新オープンモデルの実力と使い方

Gemma 4とは何か

モデルラインアップ：4種類の使い分け

E2B / E4Bの「E」とは何か

26B A4BのMoEとは何か

圧倒的なベンチマーク結果

数学・推論

コーディング

マルチモーダル：テキスト以外も扱える

実際に使ってみる

方法1：transformersで使う（Python）

方法2：llama.cppでローカル実行（macOS/Windows/Linux）

方法3：MLXでApple Siliconに最適化（Mac M1/M2/M3/M4）

方法4：Ollamaで一発起動

関数呼び出し（Function Calling）への対応

140言語対応と日本語の扱い

「スマホで動くAI」が意味するもの

まとめ：オープンAIの新たな基準点

記事をシェア

タグ

参考ソース

Alibaba の HopChain、視覚言語モデルの多段推論能力を改善

OpenAIが「知性の時代の産業政策」を公表——国民ファンドや自動安全網を柱に

LLM・生成AIの記事

関連タグの記事

最新記事