ブラウザUseエージェント:AIエージェントがWebをナビゲートして制御する方法
ブラウザUseエージェントは、各ステップで人間の入力なしに、URLをナビゲートし、ボタンをクリックし、フォームに記入し、コンテンツを抽出し、認証を処理するWebブラウザを自律的に制御するAIシステムです。2026年で最も急成長しているAIエージェントツールカテゴリで、browser-use(2026年5月時点でGitHubスター96,282)などのフレームワークに支えられています。
ブラウザUseエージェントとは何か?
ブラウザUseエージェントは、DOMトラバーサル、アクセシビリティツリーのパース、スクリーンショットグラウンディング、LLMガイドのアクション選択を使用して、ヘッドレスまたはヘッドWebブラウザをプログラム的に操作し、Webベースのタスクを自律的に完了するAIエージェントです。
ブラウザUseエージェントの仕組み
知覚:DOM、アクセシビリティツリー、スクリーンショットグラウンディング
ブラウザエージェントはアクションを起こす前に現在のページ状態を理解する必要があります。3つの知覚戦略が一般的です。
DOM抽出はページの生のHTML構造を解析します。速くトークン効率が良いですが、キャンバスでレンダリングされたコンテンツや複雑なSPAでは失敗します。
アクセシビリティツリーはブラウザの組み込みアクセシビリティレイヤーを読み取り、ページの構造化されたセマンティックビューを提供します。これがbrowser-useで使用される主要な知覚方法です。
スクリーンショットグラウンディングはページのビジュアルスクリーンショットを取得し、ビジョン対応LLMに渡します。DOMとアクセシビリティツリーが信頼できないページを処理しますが、ステップごとにトークンコストが大幅に増加します。
アクション:クリック、タイプ、ナビゲーション、フォーム送信
ブラウザエージェントのアクションスペースは広い:URLにナビゲート、要素をクリック、テキストを入力、キーを押す、スクロール、ドロップダウン選択、ファイルアップロード、タブ切り替え。各アクションはページの状態を変更します。
browser-useライブラリ
7ヶ月未満で96,282スター
browser-use(GitHub:browser-use/browser-use)は2024年10月31日に開始され、2026年5月までに96,282スターと10,802フォークに達しました。ライブラリはPlaywrightセッション管理、アクセシビリティツリー抽出、アクションシリアライズを抽象化します。
Playwrightバックエンド:browser-useがChromiumを制御する方法
browser-useはMicrosoftのPlaywright自動化ライブラリをラップし、エージェントレイヤーを追加します:アクセシビリティツリーを抽出し、トークン効率の良い形式に変換し、LLMのアクション決定をPlaywrightコマンドに変換します。
LLMインテグレーション:推論レイヤーとしてのGPT-4o、Claude、Gemini
browser-useは推論レイヤーでLLMに依存しません。OpenAI、Anthropic、Google、OpenAI互換のAPIエンドポイントをサポートします。
OpenLegionの見解:ブラウザエージェントは最もリスクが高いツール
ブラウザエージェントはエージェントAIで最もリスクが高いツールカテゴリです。クリック、フォーム記入、リダイレクト追跡ができるブラウザエージェントは、完全なインターネットアクセスを持つ人間と同じ攻撃面を持ちます。
150秒のクレデンシャル盗難デモ
2025年の公に記録された研究では、Webページに埋め込まれた隠し命令によって150秒以内にブラウザエージェントがクレデンシャルを盗むよう操作されることが実証されました。防御はアーキテクチャ的です:クレデンシャルがエージェントのコンテキストまたはプロセスメモリに存在しなければ、インジェクションはそれを抽出できません。OpenLegionのVaultプロキシはセッションクレデンシャルがネットワーク層で注入され、エージェントのコンテキストウィンドウに表示されないことを保証します。
OWASP LLM08過剰なエージェンシーとブラウザ権限
OWASP LLMトップ10 2025は過剰なエージェンシー(LLM08)をトップリスクカテゴリとしてランク付けしています。ブラウザエージェントはその典型的なリスクです:ナビゲート、読み取り、フォーム記入、ボタンクリックの権限を持つエージェントは、購入、メッセージ送信、アカウント削除、データ窃取ができます。
OpenLegionのブラウザエージェントのサンドボックス化(Camoufox + Zone 1)
OpenLegionは各エージェントのZone 1 Dockerコンテナ内で隔離されたポート:8500でCamoufoxブラウザインスタンスを実行します。4つの特性:共有セッション状態なし、フィンガープリント耐性、Vaultプロキシのクレデンシャル、Mesh Hostを通じたネットワークルーティング。
ブラウザエージェントのアーキテクチャパターン
ヘッドレスとヘッド付き
ヘッドレスモードは高速でサーバー環境で動作しますが、ボット保護システムで検出可能です。Camoufoxはヘッドレスモードで動作しますが、ヘッドレス検出スクリプトが標的とするJavaScript APIをパッチします。
CAPTCHAの処理
3つのアプローチ:行動ブラウザ(フィンガープリント耐性)、ソルバーサービス(1,000解決あたり$1〜3)、ヒューマンインザループフォールバック。OpenLegionはダッシュボードを通じてヒューマンインザループのCAPTCHAハンドオフをサポートします。
クレデンシャル注入:Vaultプロキシとハードコードされたクッキー
最悪:エージェントの命令に直接クレデンシャル。悪い:環境変数(os.environでアクセス可能)。正しい:ネットワーク層でのVaultプロキシ注入。
ブラウザUseエージェント:アーキテクチャ比較
| 次元 | OpenLegion | browser-use | Raw Playwright | Stagehand |
|---|---|---|---|---|
| 実行バックエンド | Camoufox(Firefox、フィンガープリント耐性) | Playwright(Chromium) | Playwright | クラウドChromium |
| セッション分離 | エージェントごとのコンテナ | 共有プロセス | 実装依存 | クラウド管理 |
| クレデンシャル処理 | Vaultプロキシ注入 | コンテキストウィンドウを通過 | 手動実装 | 管理済み |
| CAPTCHAサポート | Camoufoxフィンガープリント + ヒューマンインループ | 組み込みなし | 組み込みなし | ソルバーサービス |
| コンテナサンドボックス | Zone 1 Docker、non-root | なし | なし | クラウドサンドボックス |
| GitHubスター | — | 96,282(2026年5月) | N/A | ~9,000 |
| ライセンス | BSL 1.1 | MIT | Apache 2.0 | MIT |
ブラウザエージェントを使う時と使わない時
正当なユースケース:Web調査とデータ抽出、自社サービスのフォーム自動化、モニタリングとテスト。追加の管理が必要なユースケース:認証済みセッション、金融サイト。厳格なサンドボックスなしで避けるべきユースケース:信頼できないユーザー提供のURL。
OpenLegionで安全なブラウザエージェントを始める
分離コンテナ内でVaultプロキシのクレデンシャルとエージェントごとのネットワーク管理でブラウザエージェントを実行する。
よくある質問
ブラウザUseエージェントとは何ですか?
ブラウザUseエージェントは、DOMトラバーサル、アクセシビリティツリーの解析、LLMガイドのアクション選択を使用して、Webブラウザを自律的に制御するAIシステムです。browser-useライブラリ(GitHubスター96,282、MITライセンス、2024年10月開始)が最も広く採用されているオープンソース実装です。
browser-useライブラリはどのように動作しますか?
browser-useはMicrosoftのPlaywrightをラップし、LLMにブラウザのアクセシビリティツリーの構造化されたビューを与え、次にLLMのアクション決定をPlaywrightコマンドに変換します。GPT-4o、Claude、Gemini、互換LLMをサポートし、MITライセンスで、動作するエージェントに約20行のPythonが必要です。
ブラウザUseエージェントのセキュリティリスクは何ですか?
3つの主要なリスク:Webコンテンツを通じたプロンプトインジェクション(2025年のデモでは150秒でのクレデンシャル盗難を示した)、クレデンシャル漏洩(セッションクッキーがエージェントのプロセスメモリにある場合)、過剰なエージェンシー(OWASP LLM08:2025)。ゼロクリックリンクプレビュー窃取も実証されています。
ブラウザエージェントを安全に実行する方法は?
4つの管理が必要:コンテナ分離、Vaultプロキシのクレデンシャル、ネットワークイグレス管理、エージェントごとの予算制限。OpenLegionのCamoufoxバックのブラウザサービスはZone 1 Dockerコンテナ内でデフォルトで4つすべてを実装します。
Camoufoxとは何ですか?OpenLegionがそれを使う理由は?
CamoufoxはヘッドレスChromeシグネチャではなくリアルなハードウェアプロファイルを報告するようにJavaScript APIをパッチするFirefoxベースのヘッドレスブラウザです。OpenLegionは各Zone 1 Dockerコンテナのポート:8500でエージェントごとに1つのCamoufoxインスタンスを実行します。
AIエージェントにとってbrowser-useとPlaywrightの違いは何ですか?
PlaywrightはAIエージェントの概念を持たない低レベルのブラウザ自動化ライブラリです。browser-useはエージェントレイヤーを追加します:ブラウザ状態をLLM読み取り可能な形式に変換し、LLMアクションをPlaywrightコマンドに変換し、ページ間のマルチステップタスク分解を処理します。
ブラウザUseエージェントはログインと認証済みセッションを処理できますか?
はい、ただし認証済みセッション処理は最もリスクの高い操作の1つです。OpenLegionはネットワーク層でVaultプロキシを通じてセッションクレデンシャルを注入します。
ブラウザエージェントはCAPTCHAをどのように処理しますか?
3つのアプローチ:行動ブラウザ(フィンガープリント耐性)、ソルバーサービス(1,000あたり$1〜3、10〜60秒のレイテンシ)、ヒューマンインザループフォールバック。OpenLegionはダッシュボードを通じてヒューマンインザループのCAPTCHAハンドオフをサポートします。