🧠Research🔥🔥🔥

Google DeepMind、Gemini 3.5 Flashに「Computer Use」機能をネイティブ統合

軽量・高速なGemini 3.5 Flashに画面操作機能を直接組み込み、プロンプトインジェクション対策や企業向けセーフガードと併せてAPI提供を開始した。
リリース: 2026-06-24 · 読了 3

記事の要約

1. 核心(What)

  • Gemini 3.5 Flashモデルに、ブラウザやモバイル、デスクトップ環境を操作できる「Computer Use」機能がネイティブ統合された。
  • 従来はGemini 2.5のスタンドアロンモデルでのみ提供されていたコンピュータ操作機能を、メインのFlashモデルに統合した。
  • プロンプトインジェクションのリスクを軽減するため、Computer Use向けに特化した敵対的訓練(adversarial training)を施している。
  • 企業向けセーフガードとして、機微なアクション実行前の「ユーザー確認要求」と、間接インジェクション検知時の「タスク自動停止」の2つのオプション機能を提供する。

2. 影響(Why)

  • 軽量かつ低遅延なFlashモデルで画面操作が可能になったため、これまでAPIコストが障壁となっていた長時間の業務自動化エージェントを低コストで実用化できる。
  • インジェクション対策や確認フローなどの安全機構がAPI側で標準化され、開発者が自前で複雑な防御ロジックを実装する負担が軽減される。
  • 開発者への影響: Gemini APIを利用する開発者は、Browserbaseがホストするデモ環境や公式のリファレンス実装を利用して、既存のアプリケーションに画面操作エージェントを即座に組み込める。
  • 日本への影響: 国内のRPA(業務プロセス自動化)ツール開発ベンダーや中堅以上のSIerは、従来のルールベースの自動化シナリオを、Gemini 3.5 Flashを用いた自律的な画面操作エージェントへ置き換える検証を開始すべきである。

3. 根拠・詳細(How)

  • Introducing computer use in Gemini 3.5 Flash (2026-06-24 公開)