Google、Gemini 3.5 Flash に「Computer Use」を統合——OSWorld 78.4で GPT-5.5 と肩を並べる
Google が Gemini 3.5 Flash にコンピュータ操作機能を直接統合。ソフトウェアテストやオフィス自動化を実行するエージェント構築が可能に。OSWorld ベンチマークで 78.4 スコアを記録。
Google は 2026 年 6 月、Gemini 3.5 Flash にコンピュータ操作機能「Computer Use」を直接統合しました。これまで Gemini 2.5 のみで提供されていた機能を、より軽量で高速なメインモデルに組み込むことで、開発者がより手軽にエージェント型 AI を構築できるようになりました。
Gemini 3.5 Flash の Computer Use——実現する能力
Gemini 3.5 Flash に統合された Computer Use では、AI モデルが以下を実現します:
- 画面認識と理解:ブラウザ、モバイル、デスクトップ環境の画面を「見て」、その内容を理解
- 自律的な操作:マウスクリック、キーボード入力などを通じて、ユーザーの代わりにタスクを実行
- 複数プラットフォーム対応:Web ブラウザからモバイルアプリ、デスクトップまで、環境を問わず動作
パフォーマンス——GPT-5.5 と競い合うスコア
OSWorld という統合的なベンチマーク試験で、Gemini 3.5 Flash は 78.4 ポイント を記録しました。
| モデル | スコア |
|---|---|
| Gemini 3.5 Flash | 78.4 |
| GPT-5.5 | 78.7 |
| Anthropic Opus 4.8 | 83.4 |
| Gemini 3 Flash | 65.1 |
| GPT-5.4 mini | 72.1 |
GPT-5.5 とはほぼ同等の性能を持ちながらも、Gemini 3.5 Flash はモデルサイズが軽量であるため、レイテンシー(応答速度)と推論コスト でアドバンテージを保っています。
開発者向けの実装方法
Gemini 3.5 Flash の Computer Use は、以下の 2 つの方法で利用できます。
Gemini API 経由(個人開発者向け)
Google AI Studio または Gemini API を通じて直接アクセス可能。ブラウザ上でプロンプトとサンプルコードを試験した後、本番環境に展開できます。
Gemini Enterprise Agent Platform(企業向け)
Google Cloud のエンタープライズ向けプラットフォームでは、以下をサポート:
- 複数環境での並行実行
- 監査ログとセキュリティ制御
- カスタムエージェントの構築と管理
- API レート制限と動的共有クォータの設定
実装できるユースケース
記事では以下のような実践例が挙げられています:
- ソフトウェアテスト自動化:Web アプリケーションの UI テストを自動実行し、バグを検出
- オフィス業務自動化:スプレッドシート・文書作成などの繰り返しタスクをエージェント化
- 複数ツール連携:既存の Function Calling(関数呼び出し)と組み合わせ、API と画面操作を統合
セキュリティとサフガード
Google はセキュリティを重視し、以下の機能を実装:
- ユーザー確認要件:重要な操作を実行する際に人間の承認を要求
- 異常検知と自動停止:不正な操作パターンを検出した場合、即座に実行を停止
これにより、エージェントの自由度と安全性のバランスを取っています。
AI エージェント競争の最前線
Computer Use の統合は、Google が AI エージェント市場で積極的に投資していることを示すシグナルです。Claude(Anthropic)や GPT-5.5(OpenAI)と比較しても遜色ないパフォーマンスで、開発者の選択肢が増えることになります。