Google、Gemini 3.5 Flash に「Computer Use」を統合——OSWorld 78.4で GPT-5.5 と肩を並べる

2026年6月26日 04:46

💡

Google が Gemini 3.5 Flash にコンピュータ操作機能を直接統合。ソフトウェアテストやオフィス自動化を実行するエージェント構築が可能に。OSWorld ベンチマークで 78.4 スコアを記録。

Google は 2026 年 6 月、Gemini 3.5 Flash にコンピュータ操作機能「Computer Use」を直接統合しました。これまで Gemini 2.5 のみで提供されていた機能を、より軽量で高速なメインモデルに組み込むことで、開発者がより手軽にエージェント型 AI を構築できるようになりました。

Gemini 3.5 Flash の Computer Use——実現する能力

Gemini 3.5 Flash に統合された Computer Use では、AI モデルが以下を実現します：

画面認識と理解：ブラウザ、モバイル、デスクトップ環境の画面を「見て」、その内容を理解
自律的な操作：マウスクリック、キーボード入力などを通じて、ユーザーの代わりにタスクを実行
複数プラットフォーム対応：Web ブラウザからモバイルアプリ、デスクトップまで、環境を問わず動作

パフォーマンス——GPT-5.5 と競い合うスコア

OSWorld という統合的なベンチマーク試験で、Gemini 3.5 Flash は 78.4 ポイント を記録しました。

モデル	スコア
Gemini 3.5 Flash	78.4
GPT-5.5	78.7
Anthropic Opus 4.8	83.4
Gemini 3 Flash	65.1
GPT-5.4 mini	72.1

GPT-5.5 とはほぼ同等の性能を持ちながらも、Gemini 3.5 Flash はモデルサイズが軽量であるため、レイテンシー（応答速度）と推論コスト でアドバンテージを保っています。

開発者向けの実装方法

Gemini 3.5 Flash の Computer Use は、以下の 2 つの方法で利用できます。

Gemini API 経由（個人開発者向け）

Google AI Studio または Gemini API を通じて直接アクセス可能。ブラウザ上でプロンプトとサンプルコードを試験した後、本番環境に展開できます。

Gemini Enterprise Agent Platform（企業向け）

Google Cloud のエンタープライズ向けプラットフォームでは、以下をサポート：

複数環境での並行実行
監査ログとセキュリティ制御
カスタムエージェントの構築と管理
API レート制限と動的共有クォータの設定

実装できるユースケース

記事では以下のような実践例が挙げられています：

ソフトウェアテスト自動化：Web アプリケーションの UI テストを自動実行し、バグを検出
オフィス業務自動化：スプレッドシート・文書作成などの繰り返しタスクをエージェント化
複数ツール連携：既存の Function Calling（関数呼び出し）と組み合わせ、API と画面操作を統合

セキュリティとサフガード

Google はセキュリティを重視し、以下の機能を実装：

ユーザー確認要件：重要な操作を実行する際に人間の承認を要求
異常検知と自動停止：不正な操作パターンを検出した場合、即座に実行を停止

これにより、エージェントの自由度と安全性のバランスを取っています。

AI エージェント競争の最前線

Computer Use の統合は、Google が AI エージェント市場で積極的に投資していることを示すシグナルです。Claude（Anthropic）や GPT-5.5（OpenAI）と比較しても遜色ないパフォーマンスで、開発者の選択肢が増えることになります。

記事をシェア

参考ソース

LLM・生成AIの記事

Anthropic、Slack に常駐する AI チームメイト『Claude Tag』を発表

LLM・生成AI

2026年6月24日

Anthropic、Slack に常駐する AI チームメイト『Claude Tag』を発表

Anthropic が Slack 向けの新機能『Claude Tag』を発表。チャネルに @Claude をタグ付けすることで、組織の文脈を学習する AI チームメイトとして機能する。エンタープライズ向けの戦略的展開。

ByteDance の Seedance 2.5、30秒超えの AI 動画生成に対応、7月初旬発売

LLM・生成AI

2026年6月23日

ByteDance の Seedance 2.5、30秒超えの AI 動画生成に対応、7月初旬発売

ByteDance が Volcano Engine FORCE カンファレンスで Seedance 2.5 を発表。30秒を超える動画生成、シーン変更・テンポ変更対応、最大50個の入力同時処理が可能に。動画生成の長さの壁を突破する。

Cursor、新型AI モデルと Origin Git プラットフォーム、iOS アプリを発表

LLM・生成AI

2026年6月23日

Cursor、新型AI モデルと Origin Git プラットフォーム、iOS アプリを発表

Cursor は Opus・GPT に匹敵するスケールの新 AI モデル、マージコンフリクト・CI テスト自動修正の Origin Git、エージェント管理用 iOS アプリを同時発表。開発ワークフロー全体の自動化へ大きく前進する。

Google が Android に AI エージェント機能を統合――Gemini Intelligence 、Google Books、vibe-coded widgets が今夏から展開

Google は 5 月 12 日の Android Show で、AI 駆動の大型アップデートを発表。Gemini Intelligence により、複数ステップのタスク自動化が標準機能となり、Fall 2026 には Android ノートPC「Google Books」も登場する。

Google、Deep Research Max エージェントを発表――MCP 統合で独自データソースに対応

テクノロジー

2026年4月22日

Google、Deep Research Max エージェントを発表――MCP 統合で独自データソースに対応

Google が Gemini 3.1 Pro ベースの Deep Research Max エージェントを公開。Developer は Model Context Protocol (MCP) 経由で金融データなど専用データソースを統合可能に。Web 検索制限も選択できるように

Google が Gemini の新 API インターフェース「Interactions API」をデフォルト化、開発者実装が必須へ

テクノロジー

2026年6月23日

Google が Gemini の新 API インターフェース「Interactions API」をデフォルト化、開発者実装が必須へ

Google DeepMind が Gemini モデルのデフォルトインターフェースを generateContent API から Interactions API に変更。新スキーマ導入でコスト削減・速度最適化を実現し、今後の新機能はこの API 経由のみリリース予定。

Google から DeepMind 研究者が続々流出——Anthropic や OpenAI へ、IPO 前の給与・株式パッケージが引き金

ノーベル賞受賞者など Google の主力 AI 研究者が Anthropic・OpenAI へ相次いで転職。Anthropic と OpenAI の IPO 控える中、経済的インセンティブが高まり、DeepMind からの流出が加速している。

Google DeepMind Anthropic OpenAI AI 研究者

OpenAI と Broadcom、LLM 推論特化チップ「Jalapeño」発表——性能/ワット比で業界最先端を実現

テクノロジー

2026年6月26日

OpenAI と Broadcom、LLM 推論特化チップ「Jalapeño」発表——性能/ワット比で業界最先端を実現

OpenAI が Broadcom と共同開発したカスタムチップ Jalapeño を発表。LLM 推論を高速・効率的に実行するために最適化。現在テスト段階で、実運用への展開が期待される。

OpenAI Broadcom チップ LLM 推論 AI インフラ

Fika Jobs が $4M 調達、AI エージェント採用プラットフォーム「TikTok × LinkedIn」で採用効率化へ

テクノロジー

2026年6月24日

Fika Jobs が $4M 調達、AI エージェント採用プラットフォーム「TikTok × LinkedIn」で採用効率化へ

スウェーデンのスタートアップ Fika Jobs が $4M の資金調達を実施。Google Gemini を活用した AI エージェント面接で、ビデオ第一の採用プラットフォームを構築。採用企業は初年度給与の10%の手数料で利用。

採用技術 AI エージェントスタートアップ Google Gemini ビデオ面接

テクノロジー

2026年6月24日

GPT-5 Pro が 3 年来の免疫学の謎を解明、T 細胞研究で医学の新地平

OpenAI の GPT-5 Pro が、免疫学者 Derya Unutmaz 氏が 3 年間抱えていた T 細胞の振る舞いに関する謎を解明。がん・自己免疫疾患の研究に活用できる可能性が示唆される。

GPT-5 免疫学 T細胞医学研究 AI活用

Cate Blanchett が Human Consent Registry を発表、個人の肖像・音声の AI 利用を管理するツール

政策・規制

2026年6月24日

Cate Blanchett が Human Consent Registry を発表、個人の肖像・音声の AI 利用を管理するツール

Cate Blanchett が Brussels で Human Consent Registry を発表。個人が自分の肖像・音声などの AI による利用を「許可」「条件付き許可」「禁止」で管理できる無料ツール。

肖像権音声利用 AI同意管理プライバシー EU規制

LLM・生成AI

2026年6月24日

Anthropic、Slack に常駐する AI チームメイト『Claude Tag』を発表

Anthropic Claude Slack エンタープライズ AI

すべての記事を見る

Google、Gemini 3.5 Flash に「Computer Use」を統合——OSWorld 78.4で GPT-5.5 と肩を並べる

Gemini 3.5 Flash の Computer Use——実現する能力

パフォーマンス——GPT-5.5 と競い合うスコア

開発者向けの実装方法

Gemini API 経由（個人開発者向け）

Gemini Enterprise Agent Platform（企業向け）

実装できるユースケース

セキュリティとサフガード

AI エージェント競争の最前線

記事をシェア

タグ

参考ソース

Cate Blanchett が Human Consent Registry を発表、個人の肖像・音声の AI 利用を管理するツール

Google から DeepMind 研究者が続々流出——Anthropic や OpenAI へ、IPO 前の給与・株式パッケージが引き金

LLM・生成AIの記事

関連タグの記事

最新記事