Googleは2025年11月18日(米国時間)、同社の最新かつ最も高性能な大規模AIモデル「Gemini 3」を正式発表し、その中核モデル「Gemini 3 Pro(gemini-3-pro-preview)」を開発者向けに公開した。Gemini APIを通じてGoogle AI StudioおよびGoogle CloudのVertex AIから利用でき、強化された推論能力とマルチモーダル理解、エージェント的なコーディング機能が特徴となる。

Gemini 3 Pro:1Mトークンコンテキストのフラッグシップモデル

Gemini 3 Proは、Gemini 3シリーズで最初に一般公開されたモデルで、テキスト・画像・動画・音声・PDFなど複数のモーダルを横断して扱えるフラッグシップモデルだ。入力コンテキストは最大約100万トークン、出力は約6.5万トークンに対応し、知識カットオフは2025年1月に設定されている。

主な特徴は次のとおり。

  • 高度な推論・計画能力:複雑な数学・科学・コードの問題や長い指示に対して、多段階の思考プロセスを踏まえた回答を生成する。
  • 強力なマルチモーダル理解:文書、図表、スクリーンショット、動画などをまとめて解析し、要約や構造化された出力を生成できる。
  • エージェントワークフロー対応:ツール呼び出し(function calling)、コード実行、検索グラウンディング、RAG Engineなどと組み合わせた長時間タスクを前提に設計されている。

開発者向け提供チャネル:AI StudioとVertex AI、開発ツール連携

Gemini 3 Proは、Gemini APIを通じてGoogle AI StudioおよびVertex AIから利用可能だ。AI Studioではブラウザ上でプロンプトやサンプルアプリを素早く試せるほか、一定のレート制限付きで無料枠が提供されており、プロトタイピング用途なら課金なしで始めることもできる。

Vertex AIでは、Gemini 3 Proを既存のRAG Engineや検索グラウンディング、バッチ推論、コンテキストキャッシングなどと組み合わせ、本番環境向けのエンタープライズワークロードとして運用できる。モデルはグローバルリージョンでの利用が可能で、プロビジョンドスループットや動的共有クォータにも対応する。

開発ツールとの連携もあわせて強化されており、Googleはエージェント指向IDE「Google Antigravity」、コマンドラインツール「Gemini CLI」、Android StudioなどからGemini 3 Proを利用できると案内している。さらに、Firebase AI Logicとの統合により、ウェブ/モバイルアプリのバックエンドロジックとしてGemini 3を直接呼び出すことも想定されている。

新しいAPI機能:thinking_level・media_resolution・thought signatures

Gemini 3 Proの公開に合わせて、Gemini APIには次のような新機能が追加された。

  • thinking_level:モデル内部の「思考」の深さを制御するパラメータ。high(デフォルト)では複雑な問題に対して時間をかけて推論し、lowではレイテンシとコストを抑えた応答を返す。従来のthinking_budgetはGemini 3では非推奨となり、併用するとエラーとなる。
  • media_resolution:画像・動画・PDFなどの入力に対して、low / medium / highの解像度レベルをグローバルまたはパーツ単位で指定できる。OCRを伴うドキュメントにはmedium、高精度な画像解析にはhigh、一般的な動画理解にはlowが推奨されるなど、トークン消費と品質のトレードオフを細かく調整できる。
  • thought signatures:関数呼び出しを伴うマルチターン対話で、モデルの推論状態を暗号化トークンとして保持する仕組み。ツール呼び出し結果を返す際には、直前の応答で受け取ったthought_signatureをそのまま送り返す必要があり、欠落していると関数呼び出しでは400エラーとなる。公式SDKを利用して標準的なチャット履歴形式を使う場合は自動的に処理される。

また、開発者ガイドではGemini 3について温度パラメータtemperatureをデフォルトの1.0のまま利用することが推奨されており、むやみに値を下げるとループや性能劣化が起こる可能性があると注意が示されている。

空間推論と動画理解の強化で広がるユースケース

Googleは、Gemini 3 Proの空間推論能力が向上したことで、ポインティングや軌道予測、タスクの進行状況といった具現化推論タスクで高い性能を発揮し、自動運転、XRデバイス、ロボティクス、画面理解系エージェントなどの新しいユースケースを可能にすると説明している。また、デスクトップやモバイルOSの画面を高度に理解し、マウス操作や画面上の注釈からユーザーの意図を読み取る「コンピュータ使用エージェント」の性能向上にもつながるとしている。

動画推論では、高フレームレートの素早い動きを正確に捉えながら、数時間規模の連続した映像全体の文脈を保持し、重要なシーンの抽出やナラティブの理解を行えるとされる。スポーツ解析や監視カメラ映像の要約、長尺コンテンツのハイライト生成など、映像系アプリケーションへの応用が意識された設計だ。

価格とコンテキスト:1Mコンテキストを前提とした従量課金

Gemini 3 Pro(gemini-3-pro-preview)は、Gemini APIの開発者向けプレビューとして提供されており、200kトークン以下のプロンプトに対しては入力100万トークンあたり2ドル、出力100万トークンあたり12ドルの従量課金が設定されている。200kトークンを超える長大なプロンプトでは、入力4ドル/出力18ドルに単価が引き上げられる。これらの料金はテキスト向けの標準価格であり、マルチモーダル入力ではレートが異なる場合がある。

入力コンテキストは最大約100万トークン、出力は約6.5万トークンであり、大規模なコードベースや数百ページのPDF、長時間の音声・動画といった“重い”入力も一度に扱える設計だ。Vertex AIのドキュメントでは、約45分までの動画や数百ページ規模のPDFを単一プロンプトで処理できるといった具体的な制限値も公開されている。

AI Studioからの利用については、Gemini 3 Proがレート制限付きで無料枠として提供されており、ブラウザ上でのプロトタイピングや「vibe coding」によるアプリ生成などを課金なしで試すことができる。一方で、実運用のバックエンドとして利用する場合は、Gemini APIまたはVertex AIの料金体系に従った課金が必要になる。

開発者にとっての意味:思考の深さと実運用性の両立

Gemini 3 Proは、Gemini 2.5 Proで培われた推論性能とエージェント機能をさらに拡張しつつ、1Mトークンコンテキストやマルチモーダル処理、thinking_levelやmedia_resolution、thought signaturesといったコントロール機能を備えた「実運用前提」のモデルとして位置づけられている。

ベンチマークでは、推論やコーディングの指標で2.5 Proを上回るスコアを記録しており、特にエージェント的なコード生成や長時間タスクでの安定性向上が強調されている。既にGemini 2.5シリーズをバックエンドに使っている開発者にとっては、thought signaturesなどの新仕様への対応は必要になるものの、中長期的にはGemini 3への移行がワークフロー全体の品質向上につながると考えられる。

Gemini 3シリーズとしては、このほかにより長時間の推論に特化した「Gemini 3 Deep Think」などの派生モデルも予告されており、Google検索やGoogle Workspaceなど自社プロダクト側への統合も順次進められる見込みだ。開発者にとっては、プロダクト側とバックエンド側で共通のモデルファミリーを活用できる環境がさらに整うことになる。