🧠Research🔥🔥🔥

Google、Gemini 3.5 Flash に Computer Use を標準搭載──画面操作で過去最高性能を達成

専用モデルだった画面操作機能を主力軽量モデルにネイティブ統合し、開発者が追加コストを抑えつつブラウザやアプリを操作するエージェントを構築可能にした。
リリース: 2026-06-25 · 読了 3

記事の要約

1. 核心(What)

  • 米Googleは2026年6月24日、主力AIモデル「Gemini 3.5 Flash」に、画面を認識して操作を自動実行する「Computer Use」機能を標準搭載した。
  • 従来は専用モデル「Gemini 2.5 Computer Use」として提供していた機能をネイティブ統合し、画面操作タスクにおいて同社過去最高の性能を記録した。
  • AIが直接ブラウザを動かすのではなく、スクリーンショットから次の操作座標やキー入力を提案し、開発者側のプログラムがそれを実行する仕組みを採用している。
  • 企業向けセーフガードとして、間接的プロンプトインジェクション検知時の自動停止機能と、機密操作前のユーザー確認を求める2つのオプションを提供する。

2. 影響(Why)

  • RPAの代替設計: 国内の業務システム開発を行う中規模SIerは、既存のRPAツールをGemini API経由の画面操作エージェントに置き換えることで、保守コストを従来の3割以下に削減する設計を検討できる。
  • テスト自動化の移行: Webサービス開発者は、Gemini 3.5 Flashの低遅延・低コストな特性を活かし、E2Eテストの自動化シナリオを専用モデルなしで安価に実装する体制へ移行できる。

3. 根拠・詳細(How)

  • ネイティブ統合: 専用モデル「Gemini 2.5 Computer Use」を廃し、主力軽量モデル「Gemini 3.5 Flash」に直接統合することで、呼び出しの手間とレイテンシを削減した。
  • 協調型実行モデル: AIに目標とスクリーンショットを渡すと「クリック座標」や「テキスト入力」を提案し、開発者側のコードが実環境で実行する関数呼び出しと同等のフローで動作する。

4. 展望・課題(Next)

  • プレビュー版の制約: 現時点ではプレビュー機能であり、エラーやセキュリティ上の脆弱性が生じやすいため、Googleは重大な判断や機密データの取り扱いを伴う操作への適用を避けるよう推奨している。
  • 多層防御の推奨: 信頼できない情報への誤反応を防ぐため、サンドボックス環境での隔離実行や、人間による最終確認プロセスを組み合わせた多層防御の構築が必須となる。