Google は 2026 年 6 月、Gemini 3.5 Flash にコンピュータ操作機能「Computer Use」を直接統合しました。これまで Gemini 2.5 のみで提供されていた機能を、より軽量で高速なメインモデルに組み込むことで、開発者がより手軽にエージェント型 AI を構築できるようになりました。

Gemini 3.5 Flash の Computer Use——実現する能力

Gemini 3.5 Flash に統合された Computer Use では、AI モデルが以下を実現します:

  • 画面認識と理解:ブラウザ、モバイル、デスクトップ環境の画面を「見て」、その内容を理解
  • 自律的な操作:マウスクリック、キーボード入力などを通じて、ユーザーの代わりにタスクを実行
  • 複数プラットフォーム対応:Web ブラウザからモバイルアプリ、デスクトップまで、環境を問わず動作

パフォーマンス——GPT-5.5 と競い合うスコア

OSWorld という統合的なベンチマーク試験で、Gemini 3.5 Flash は 78.4 ポイント を記録しました。

モデルスコア
Gemini 3.5 Flash78.4
GPT-5.578.7
Anthropic Opus 4.883.4
Gemini 3 Flash65.1
GPT-5.4 mini72.1

GPT-5.5 とはほぼ同等の性能を持ちながらも、Gemini 3.5 Flash はモデルサイズが軽量であるため、レイテンシー(応答速度)と推論コスト でアドバンテージを保っています。

開発者向けの実装方法

Gemini 3.5 Flash の Computer Use は、以下の 2 つの方法で利用できます。

Gemini API 経由(個人開発者向け)

Google AI Studio または Gemini API を通じて直接アクセス可能。ブラウザ上でプロンプトとサンプルコードを試験した後、本番環境に展開できます。

Gemini Enterprise Agent Platform(企業向け)

Google Cloud のエンタープライズ向けプラットフォームでは、以下をサポート:

  • 複数環境での並行実行
  • 監査ログとセキュリティ制御
  • カスタムエージェントの構築と管理
  • API レート制限と動的共有クォータの設定

実装できるユースケース

記事では以下のような実践例が挙げられています:

  • ソフトウェアテスト自動化:Web アプリケーションの UI テストを自動実行し、バグを検出
  • オフィス業務自動化:スプレッドシート・文書作成などの繰り返しタスクをエージェント化
  • 複数ツール連携:既存の Function Calling(関数呼び出し)と組み合わせ、API と画面操作を統合

セキュリティとサフガード

Google はセキュリティを重視し、以下の機能を実装:

  • ユーザー確認要件:重要な操作を実行する際に人間の承認を要求
  • 異常検知と自動停止:不正な操作パターンを検出した場合、即座に実行を停止

これにより、エージェントの自由度と安全性のバランスを取っています。

AI エージェント競争の最前線

Computer Use の統合は、Google が AI エージェント市場で積極的に投資していることを示すシグナルです。Claude(Anthropic)や GPT-5.5(OpenAI)と比較しても遜色ないパフォーマンスで、開発者の選択肢が増えることになります。