📖 この記事で分かること
- Gemini 3.5 Flashに画面操作機能「Computer Use」が標準搭載された
- ブラウザ・モバイル・デスクトップをAIが自動操作できる
- プロンプトインジェクション対策など2つの安全機構が用意された
- Gemini APIとGemini Enterprise Agent Platformで利用できる
💡 知っておきたい用語
- Computer Use:AIが画面を見て、人の代わりにクリックや入力などを行う機能
- プロンプトインジェクション:外部から不正な指示を紛れ込ませてAIを誤作動させる攻撃
最終更新日: 2026年6月26日
▶ 公式ページ
- Computer Use デモ環境(Browserbase)(Browserbase)
- Introducing computer use in Gemini 3.5 Flash(公式発表)(Google)
- Gemini API|Computer use ドキュメント(Google)
Gemini 3.5 Flash が「Computer Use」を標準搭載
この記事のポイント
- Googleは2026年6月24日、Gemini 3.5 Flash(2026年6月時点)に画面操作機能「Computer Use」を標準ツールとして統合しました。
- これまで単体の Gemini 2.5 computer use モデルが必要だった操作を、検索やMapsと同じ1モデル内で実行できます。
- 利用は Gemini API【エーピーアイ】と Gemini Enterprise Agent Platform 経由で、安全機構も同時提供されます。
Googleは6月24日、軽量・高速モデルの Gemini 3.5 Flash に「Computer Use」を組み込みのツールとして統合したと発表しました。発表は Google DeepMind のプロダクトマネージャー Mateo Quiros 氏によるものです。AIがスクリーンショットから画面を理解し、クリックや入力、スクロールなどの操作を返すことで、ブラウザ・モバイル・デスクトップの各環境を自動で操作できます。
何が変わったのか
最大の変化は、画面操作が「専用モデル」から「標準ツール」へ移ったことです。
従来この機能は、2025年10月に登場した単体の Gemini 2.5 computer use モデルでのみ利用できました。今回は同じ Flash モデルの中で、検索やMapsのグラウンディング、関数呼び出しと並べて呼び出せる組み込みツールになっています。これにより、画面操作と言語処理で別々のモデルを行き来させる構成を組まなくても、1つのエージェントで「画面を見る・調べる・操作する」を完結できます。
動作は、画面を撮影してAIに渡し、次の操作を受け取って実行し、再び画面を撮るという観察→思考→実行のループです。Googleは、継続的なソフトウェアテストや、業務アプリをまたぐナレッジワークなど、長時間・多ステップの自動化での性能向上を強調しています。Googleは公式発表でエージェント用途のベンチマーク「OSWorld-Verified」を示し、computer use タスクで自社のこれまでで最高の性能としています。第三者報道では同ベンチマークのスコアを78.4%(2026年6月時点)と伝えています。
安全対策:プロンプトインジェクション対策と2つのセーフガード
ライブ環境でAIが自律操作する以上、安全設計が前提になります。
Googleは、プロンプトインジェクションのリスクを抑えるため、computer use 向けの敵対的学習を実施したとしています。あわせて、企業向けに任意で使える2つのセーフガードを提供します。
- 機微な操作や取り消せない操作の前に、ユーザーの明示的な確認を必須にする
- 間接的なプロンプトインジェクションを検知した場合に、タスクを自動停止する
Googleはこれを「多層防御(defense-in-depth)」と位置づけ、サンドボックス、人間による確認、厳格なアクセス制御との併用を推奨しています。
編集部の見方
[コストと速度の観点]: Flash は軽量・低コスト枠のモデルです。多ステップの自動化を回す用途では、確認待ちで処理が割り込む頻度や、1タスクに必要な操作回数によって実コストが変わります。「安いから安い」とは限らず、ワークフロー設計込みで見積もる必要があります。
Gemini 3.5 Flash がどのように進化してきたかを知りたい場合は、以下の記事で同モデルの推論性能向上の経緯を確認できます:
入手性と次の一歩
Gemini 3.5 Flash の Computer Use は、Gemini API と Gemini Enterprise Agent Platform から利用できます。Googleは Browserbase がホストするデモ環境と、GitHub のリファレンス実装も公開しています。まず触って挙動を確かめたい場合は、上記の公式デモ環境で実際の操作ループを確認できます。
http://gemini.browserbase.com/
よくある質問
Q: 既存の Gemini 2.5 computer use モデルとの違いは?
A: 単体モデルが必要だった画面操作を、Gemini 3.5 Flash の標準ツールとして、検索・Maps・関数呼び出しと同じ1モデル内で呼び出せる点が違いです。
Q: どの環境を操作できますか?
A: ブラウザ、モバイル、デスクトップの各環境に対応します。スクリーンショットを解析し、クリックや入力などの操作を返す観察→思考→実行のループで動きます。
Q: 安全面の対策は?
A: プロンプトインジェクションへの敵対的学習に加え、機微・不可逆な操作前のユーザー確認、間接的プロンプトインジェクション検知時の自動停止という2つの任意セーフガードが提供されます。
まとめ
Googleは Gemini 3.5 Flash に Computer Use を標準ツールとして統合し、画面操作を専用モデルから組み込み機能へと移しました。検索・Maps・関数呼び出しと同じモデルで完結できる構成と、プロンプトインジェクション対策を含む安全機構が同時に示された点が今回の要点です。利用は Gemini API と Gemini Enterprise Agent Platform から可能で、デモ環境とリファレンス実装も公開されています。
【用語解説】
- OSWorld-Verified: デスクトップ操作エージェントの性能を測るベンチマーク。実際のアプリ操作タスクの達成度を評価する。
- Gemini Enterprise Agent Platform: 旧 Vertex AI にあたる、企業向けにAIエージェントを構築・運用するための Google のプラットフォーム。
- 多層防御: 単一の対策に頼らず、サンドボックスや人間の確認など複数の安全策を重ねて守る考え方。
引用元:
- [1] Introducing computer use in Gemini 3.5 Flash(Google)
- [2] Gemini API|Computer use ドキュメント(Google)
- [3] Gemini 3.5 Flash Released With Computer Use Capabilities(Cyber Security News)
この記事について: AI 支援で執筆、編集部が事実確認・編集しています。誤りや追加情報があれば Contact よりお知らせください。
15 年以上の開発経験を持つソフトウェアエンジニア / テクノロジーライター。AI エージェントの実務活用を研究し、現場や経営者向けセミナーでその知見を発信。本メディア tech-noisy.com では、一次情報に基づく最新ニュース・解説記事を執筆。また、音楽生成 AI による DJ パフォーマンスを企業イベントで行うなど、テクノロジーと表現の融合も探求している。