📖 この記事で分かること
- ブラウザ自動化CLIツールのメジャーアップデート内容
- 直接CDP接続により実現した速度・コスト改善の仕組み
- Claude CodeやWSL2環境からの活用方法
- 従来のPlaywright依存からCDP移行の背景と意味
💡 知っておきたい用語
- CDP(Chrome DevTools Protocol):Chromeブラウザに直接話しかけるための通信プロトコル。F12で開く開発者ツールが裏側で使っているのと同じ仕組みで、WebSocket経由でブラウザの操作・監視・データ取得を行う。
最終更新日: 2026年03月23日
Browser Use CLI 2.0とは何か
AIエージェント向けブラウザ自動化ツール「Browser Use」のコマンドラインインターフェースが、バージョン2.0に刷新された。最大の特徴は、Playwright経由の操作を廃止し、CDP(Chrome DevTools Protocol)【クローム・デブツールズ・プロトコル】への直接接続に移行したことで、速度が最大2倍、コストは従来の半分になるという。
Browser Use CLIは、コマンドライン1行でブラウザのナビゲーション・クリック・フォーム入力・スクリーンショットを操作できるツールだ。バックグラウンドで常駐するデーモンプロセスがブラウザを起動したまま保持するため、コマンド間のレイテンシを約50ミリ秒に抑えていた。今回の2.0では、このアーキテクチャをより低レイヤーに刷新している。
なぜPlaywrightからCDPへ移行したのか
Browser Useの開発チームは、Playwright経由のブラウザ操作がAIエージェントの用途には適合しない点が増えてきたと説明している。Playwrightはテストコードを短く読みやすくするためのラッパーであり、便利な反面、ブラウザの内部挙動が見えにくくなる。実際、開発チームがブラウザの実際の動作を確かめようとしたところ、Playwrightが重要な詳細を隠蔽していることが分かったという。
CDPへの直接移行で得られた改善点は次のとおりだ:
- 要素抽出の高速化: ページ上のクリック可能要素の取得が大幅に速くなった
- スクリーンショット処理の改善: 取得速度・精度が向上
- 非同期反応機能: ページが変化し続ける場合(検索結果のストリーミング表示など)にも対応
- クロスオリジンiframe対応: 異なるオリジンを持つiframe内の操作が可能に
2つのアーキテクチャの違いを整理すると以下のようになる。
| 項目 | 従来方式(Playwright経由) | v2.0(CDP直接接続) |
|---|---|---|
| 通信レイヤー | 高レベルAPIラッパー | 低レベルWebSocket通信 |
| 応答速度 | 普通(ラッパーのオーバーヘッド有) | 高速(直通通信) |
| 要素把握 | Playwrightのセレクタに依存 | ブラウザ内部ツリーを直接参照 |
| 柔軟性 | テスト自動化に最適化 | AIエージェントの動的操作に最適化 |
| 開発環境 | 専用バイナリが必要 | 既存のChrome(ホスト側)に接続可 |
また、並行してcdp-useというPython向けのタイプセーフCDPクライアントライブラリも公開しており、CDPの全コマンドに対してIntelliSense(補完機能)が利用できる。
2.0の主要機能:実行中のChromeに直接接続
CLIの操作方法は従来と互換性を保ちつつ、新たに--cdp-urlオプションが追加された。これにより、すでに起動しているChromeブラウザにそのまま接続できる。
# 実行中のChromeに直接接続(CDPアドレス指定)
browser-use --cdp-url http://localhost:9222 open https://example.com
# 自動検出して接続
browser-use --connect open https://example.com
# 既存のプロファイル(ログイン済みセッション)を使用
browser-use --profile "Default" open https://gmail.com
日本のユーザーからも早速活用事例が報告されている。「CLAUDE.md に『browser-useを使うなら–cdp-urlをつけて』と書くだけで、Claude CodeがWSL2からホストのChromeを操作できるようになった。MCPよりもきびきび動く」という声がX上に投稿されており、開発者環境への馴染みやすさが好評だ。
インストールは1コマンドで完了する:
# macOS / Linux
curl -fsSL https://browser-use.com/cli/install.sh | bash
# インストール確認
browser-use doctor
Claude Code向けには、専用のスキルファイルも用意されている。以下のコマンドで追加すれば、Claude Codeがbrowser-useの全コマンドを把握した状態で動作する:
npx skills add https://github.com/browser-use/browser-use --skill browser-use
Claude Codeとの連携:なぜMCPより速いのか
Browser Use CLI 2.0はMCP(Model Context Protocol)サーバー経由でも使えるが、CLIとして直接呼び出す方が軽快に動くという声が多い。その理由はアーキテクチャの違いにある。
MCPのstdioトランスポートはコマンドごとに接続・切断を繰り返すため、ブラウザ操作のような30〜120秒かかるタスクではタイムアウトが発生しやすい。一方、CLI 2.0はデーモンプロセスが常駐しており、コマンド間の待機時間は約50ミリ秒。Claude Codeのエージェントループとの相性が良い。
Claude Code連携の実用例:
CLAUDE.mdにbrowser-use --cdp-urlを使う旨を記載するだけで設定完了- WSL2(Windows Subsystem for Linux 2)環境からホスト側のChromeを操作可能
- ログイン済みChromeプロファイルを引き継げるため、認証が必要なサイトの自動化が容易
課題と今後の注目点
CDPは低レイヤーのプロトコルであるため、AIモデルとの相性については課題も指摘されている。事前学習データにCDP関連のコードが少ないため、AIが直接CDP操作を生成しようとすると精度が下がりやすい。Browser Use CLIはそのCDPの複雑さを隠蔽し、わかりやすいコマンド体系で提供することでこの問題を回避している。
現時点で未確認の点としては、コスト半減の具体的な数値根拠(どのタスク・モデルでの比較か)がソース上では明示されていない。採用を検討する場合は、自環境での実測が推奨される。
今後はextractコマンド(LLMによるデータ抽出)の実装が予告されており、より高レベルな操作の自動化が期待されている。また、Browser Use Cloudとの連携機能も引き続き拡充されていく見込みだ。
今すぐ試せる実用例:GitHubリポジトリ検索の自動化
概念よりも動くコードの方が理解しやすい。以下は、GitHubでリポジトリを検索してスター数トップ5を取得する一連のCLI操作例だ。
# 1. Chromeを起動(ログイン済みプロファイルを使う場合)
browser-use --profile "Default" open https://github.com/search?q=browser-use&type=repositories
# 2. ページの要素番号一覧を取得
browser-use state
# 3. 検索結果のテキストをJavaScriptで抽出
browser-use eval "Array.from(document.querySelectorAll('[data-testid=\"results-list\"] h3 a')).slice(0,5).map(a => a.textContent.trim())"
# 4. スクリーンショットで確認
browser-use screenshot github-results.png
WSL2とClaude Code環境での応用例:
# Windowsホスト側でChromeをデバッグポート付きで起動
# (PowerShell)
Start-Process "chrome" "--remote-debugging-port=9222"
# WSL2内から接続して操作
browser-use --cdp-url http://localhost:9222 open https://github.com
browser-use --cdp-url http://localhost:9222 state
browser-use --cdp-url http://localhost:9222 screenshot result.png
CLAUDE.mdへの記載例(Claude Codeに自動でCDP接続を使わせる):
# ブラウザ操作
browser-useを使う場合は必ず --cdp-url http://localhost:9222 オプションを付けること。
Chromeはホスト側でデバッグポート付きで起動済み。
この設定を一度書いておくだけで、Claude Codeがブラウザ操作タスクを受け取るたびに自動でCDP接続を使うようになる。
よくある質問
Q: Browser Use CLI 2.0は無料で使えますか?
A: CLIツール自体はオープンソース(MITライセンス)で無料利用できます。ローカルのChromeやChromiumを操作する場合は費用不要です。Browser Use Cloudのクラウドブラウザ機能を使う場合は別途APIキーと料金が発生します。
Q: 既存のbrowser-useスクリプトは2.0でそのまま動きますか?
A: 基本的なコマンド体系は互換性が保たれています。新機能の--cdp-urlオプションは従来のオプションと併用可能で、既存のワークフローへの影響は最小限とされています。ただし内部アーキテクチャがPlaywrightからCDPに刷新されているため、詳細な動作差異が生じる可能性は否定できません。
Q: WSL2環境でホストのChromeを操作するにはどうすればよいですか?
A: ChromeをWindowsホスト側で--remote-debugging-port=9222付きで起動し、WSL2内からbrowser-useの--cdp-urlオプションでそのポートを指定します。CLAUDE.mdにその旨を記載しておくと、Claude Codeが自動的にCDP経由で操作するようになります。
まとめ
Browser Use CLI 2.0は、Playwrightを廃止してCDPへ直接移行することで速度2倍・コスト半減を実現したブラウザ自動化ツールのメジャーアップデートだ。実行中のChromeへの直接接続に対応し、Claude CodeやWSL2環境からも容易に活用できる。MCPサーバーより軽快に動作するという評価も出ており、AIエージェント開発者にとって選択肢のひとつとして注目度が高まっている。コスト削減効果の具体的な数値は自環境での検証が必要だが、CDP移行という方向性はAIブラウザ自動化の潮流と合致している。
【用語解説】
- CDP(Chrome DevTools Protocol)【クローム・デブツールズ・プロトコル】: ChromeブラウザとWebSocket経由で直接通信するためのプロトコル。F12開発者ツールが使っているのと同じ仕組みで、ページナビゲーション・要素操作・スクリーンショット・JavaScriptの実行などを低レイヤーで制御できる。
- デーモンプロセス: バックグラウンドで常時稼働しているプログラム。Browser Use CLIの場合、コマンドを実行するたびにブラウザを起動・終了する代わりに、デーモンがブラウザを起動したまま保持することで、コマンド間のレイテンシを約50ミリ秒に抑えている。
- MCP(Model Context Protocol)【えむしーぴー】: AIモデルと外部ツールを接続するための標準プロトコル。AnthropicがClaude向けに設計したが、現在は多くのAIシステムで採用されている。ブラウザ操作のような長時間タスクではタイムアウトが課題になる場合がある。
免責事項: 本記事の情報は執筆時点のものです。AI技術は急速に進歩しているため、機能や制限は予告なく変更される場合があります。
引用元:
- [1] Browser Use 公式ドキュメント – https://docs.browser-use.com/open-source/browser-use-cli
- [2] Browser Use 公式X(旧Twitter)発表 – https://x.com/browser_use/status/2035081807209931153
- [3] Browser Use 公式ブログ「Closer to the Metal: Leaving Playwright for CDP」 – https://browser-use.com/posts/playwright-to-cdp
- [4] cdp-use GitHubリポジトリ – https://github.com/browser-use/cdp-use
Previous Post
CoworkとClaude in Chrome連携 初心者向けガイド【2026年最新】
Next Post
AIエージェント向けヘッドレスブラウザ「Lightpanda」とは?Chromeの11倍速・9倍軽量を実現
15年以上の開発経験を持つソフトウェアエンジニア。クラウドやWeb技術に精通し、業務システムからスタートアップ支援まで幅広く手掛ける。近年は、SaaSや業務システム間の統合・連携開発を中心に、企業のDX推進とAI活用を支援。
技術だけでなく、経営者やビジネスパーソンに向けた講演・執筆を通じて、生成AIの最新トレンドと実務への落とし込みをわかりやすく伝えている。
また、音楽生成AIのみで構成したDJパフォーマンスを企業イベントで展開するなど、テクノロジーと表現の融合をライフワークとして探求している。