브라우저 Use 에이전트: AI 에이전트가 웹을 탐색하고 제어하는 방법

브라우저 Use 에이전트는 각 단계에서 인간의 입력 없이 URL 탐색, 버튼 클릭, 양식 작성, 콘텐츠 추출, 인증 처리를 통해 웹 브라우저를 자율적으로 제어하는 AI 시스템입니다. 2026년 가장 빠르게 성장하는 AI 에이전트 도구 카테고리로, browser-use(2026년 5월 기준 GitHub 스타 96,282개)와 같은 프레임워크가 이를 지원합니다.

브라우저 Use 에이전트란 무엇인가?

브라우저 Use 에이전트는 DOM 순회, 접근성 트리 파싱, 스크린샷 그라운딩, LLM 기반 액션 선택을 사용하여 헤드리스 또는 헤드 웹 브라우저를 프로그래밍 방식으로 제어하여 웹 기반 작업을 자율적으로 완료하는 AI 에이전트입니다.

브라우저 Use 에이전트의 작동 방식

인식: DOM, 접근성 트리, 스크린샷 그라운딩

브라우저 에이전트는 행동하기 전에 현재 페이지 상태를 이해해야 합니다. 세 가지 인식 전략이 일반적으로 사용됩니다.

DOM 추출은 페이지의 원시 HTML 구조를 파싱합니다. 빠르고 토큰 효율적이지만 캔버스 렌더링 콘텐츠와 복잡한 SPA에서 실패합니다.

접근성 트리는 브라우저의 내장 접근성 레이어를 읽어 페이지의 구조화된 시맨틱 뷰를 제공합니다. 이것이 browser-use가 사용하는 주요 인식 방법입니다.

스크린샷 그라운딩은 페이지의 시각적 스크린샷을 캡처하여 비전 지원 LLM에 전달합니다. DOM과 접근성 트리가 신뢰할 수 없는 페이지를 처리하지만 단계당 토큰 비용이 상당히 증가합니다.

액션: 클릭, 타이핑, 탐색, 양식 제출

브라우저 에이전트의 액션 공간은 넓습니다: URL 탐색, 요소 클릭, 텍스트 입력, 키 누르기, 스크롤, 드롭다운 선택, 파일 업로드, 탭 전환. 각 액션은 페이지 상태를 변경합니다.

browser-use 라이브러리

7개월 미만에 96,282 스타

browser-use(GitHub: browser-use/browser-use)는 2024년 10월 31일 출시 후 2026년 5월까지 96,282 스타와 10,802 포크를 달성했습니다. 라이브러리는 Playwright 세션 관리, 접근성 트리 추출, 액션 직렬화를 추상화합니다.

Playwright 백엔드: browser-use가 Chromium을 제어하는 방법

browser-use는 Microsoft의 Playwright 자동화 라이브러리를 래핑하여 에이전트 레이어를 추가합니다: 접근성 트리 추출, 토큰 효율적 형식으로 변환, LLM 액션 결정을 Playwright 명령으로 변환.

LLM 통합: 추론 레이어로서의 GPT-4o, Claude, Gemini

browser-use는 추론 레이어에서 LLM에 구애받지 않습니다. OpenAI, Anthropic, Google 및 모든 OpenAI 호환 API 엔드포인트를 지원합니다.

OpenLegion의 관점: 브라우저 에이전트는 가장 위험한 도구

브라우저 에이전트는 에이전틱 AI에서 가장 위험한 도구 카테고리입니다. 클릭, 양식 작성, 리다이렉트 추적이 가능한 브라우저 에이전트는 전체 인터넷 액세스 권한을 가진 인간과 동일한 공격 표면을 가집니다.

150초 자격 증명 도용 데모

2025년에 공개적으로 문서화된 연구에서 웹 페이지에 숨겨진 지시를 통해 150초 이내에 브라우저 에이전트가 자격 증명을 도용하도록 조작될 수 있음을 보여주었습니다. 방어는 아키텍처적입니다: 자격 증명이 에이전트의 컨텍스트나 프로세스 메모리에 존재하지 않으면 인젝션은 이를 추출할 수 없습니다. OpenLegion의 Vault 프록시는 세션 자격 증명이 네트워크 레이어에서 주입되어 에이전트의 컨텍스트 창에 나타나지 않도록 보장합니다.

OWASP LLM08 과도한 에이전시와 브라우저 권한

OWASP LLM 상위 10개 2025는 과도한 에이전시(LLM08)를 최상위 위험 카테고리로 분류합니다. 브라우저 에이전트가 대표적인 위험입니다: 탐색, 읽기, 양식 작성, 버튼 클릭 권한을 가진 에이전트는 구매, 메시지 전송, 계정 삭제, 데이터 유출이 가능합니다.

OpenLegion의 브라우저 에이전트 샌드박스화 방법 (Camoufox + Zone 1)

OpenLegion은 각 에이전트의 Zone 1 Docker 컨테이너 내부에서 격리된 포트 :8500에서 에이전트당 하나의 Camoufox 브라우저 인스턴스를 실행합니다. 네 가지 속성: 공유 세션 상태 없음, 핑거프린트 저항, Vault 프록시 자격 증명, Mesh Host를 통한 네트워크 라우팅.

브라우저 에이전트 아키텍처 패턴

헤드리스 vs. 헤드 있음

헤드리스 모드는 더 빠르고 서버 환경에서 작동하지만 봇 보호 시스템으로 감지 가능합니다. Camoufox는 헤드리스 모드로 실행되지만 헤드리스 감지 스크립트가 대상으로 하는 JavaScript API를 패치합니다.

CAPTCHA 처리

세 가지 접근 방식: 행동 브라우저(핑거프린트 저항), 솔버 서비스(1,000 해결당 $1~3), 휴먼인더루프 폴백. OpenLegion은 대시보드를 통해 휴먼인더루프 CAPTCHA 핸드오프를 지원합니다.

자격 증명 주입: Vault 프록시 vs. 하드코딩된 쿠키

최악: 에이전트 지시에 직접 자격 증명. 나쁨: 환경 변수(os.environ으로 액세스 가능). 올바름: 네트워크 레이어에서 Vault 프록시 주입.

브라우저 Use 에이전트: 아키텍처 비교

차원	OpenLegion	browser-use	Raw Playwright	Stagehand
실행 백엔드	Camoufox (Firefox, 핑거프린트 저항)	Playwright (Chromium)	Playwright	클라우드 Chromium
세션 격리	에이전트당 컨테이너	공유 프로세스	구현 의존	클라우드 관리
자격 증명 처리	Vault 프록시 주입	컨텍스트 창 통과	수동 구현	관리됨
CAPTCHA 지원	Camoufox 핑거프린트 + 휴먼인루프	내장 없음	내장 없음	솔버 서비스
컨테이너 샌드박싱	Zone 1 Docker, non-root	없음	없음	클라우드 샌드박스
GitHub 스타	—	96,282 (2026년 5월)	N/A	~9,000
라이선스	BSL 1.1	MIT	Apache 2.0	MIT

브라우저 에이전트 사용 시기 (와 사용하지 말아야 할 때)

합법적인 사용 사례: 웹 연구 및 데이터 추출, 자체 서비스에 대한 양식 자동화, 모니터링 및 테스트. 추가 제어가 필요한 사용 사례: 인증된 세션, 금융 사이트. 엄격한 샌드박싱 없이 피해야 할 사용 사례: 신뢰할 수 없는 사용자 제공 URL.

OpenLegion에서 안전한 브라우저 에이전트 시작하기

격리된 컨테이너에서 Vault 프록시 자격 증명과 에이전트별 네트워크 제어로 브라우저 에이전트를 실행하세요.

시작하기 문서 읽기 플랫폼 보기

자주 묻는 질문

브라우저 Use 에이전트란 무엇인가요?

브라우저 Use 에이전트는 DOM 순회, 접근성 트리 파싱, LLM 기반 액션 선택을 사용하여 웹 브라우저를 자율적으로 제어하는 AI 시스템입니다. browser-use 라이브러리(GitHub 스타 96,282, MIT 라이선스, 2024년 10월 출시)가 가장 널리 채택된 오픈소스 구현입니다.

browser-use 라이브러리는 어떻게 작동하나요?

browser-use는 Microsoft의 Playwright를 래핑하여 LLM에게 브라우저 접근성 트리의 구조화된 뷰를 제공하고 LLM 액션 결정을 Playwright 명령으로 변환합니다. GPT-4o, Claude, Gemini, 호환 LLM을 지원하고 MIT 라이선스를 가지며 약 20줄의 Python으로 작동하는 에이전트를 만들 수 있습니다.

브라우저 Use 에이전트의 보안 위험은 무엇인가요?

세 가지 주요 위험: 웹 콘텐츠를 통한 프롬프트 인젝션(2025년 데모에서 150초 내 자격 증명 도용 시연), 자격 증명 유출(세션 쿠키가 에이전트 프로세스 메모리에 있는 경우), 과도한 에이전시(OWASP LLM08:2025). 제로 클릭 링크 미리보기 유출도 시연되었습니다.

브라우저 에이전트를 안전하게 실행하는 방법은 무엇인가요?

네 가지 제어가 필요합니다: 컨테이너 격리, Vault 프록시 자격 증명, 네트워크 이그레스 제어, 에이전트별 예산 한도. OpenLegion의 Camoufox 기반 브라우저 서비스는 Zone 1 Docker 컨테이너 내에서 기본적으로 네 가지 모두를 구현합니다.

Camoufox란 무엇이며 OpenLegion이 이를 사용하는 이유는 무엇인가요?

Camoufox는 헤드리스 시그니처 대신 현실적인 하드웨어 프로필을 보고하도록 JavaScript API를 패치하는 Firefox 기반 헤드리스 브라우저입니다. OpenLegion은 각 Zone 1 Docker 컨테이너의 포트 :8500에서 에이전트당 하나의 Camoufox 인스턴스를 실행합니다.

AI 에이전트에서 browser-use와 Playwright의 차이점은 무엇인가요?

Playwright는 AI 에이전트 개념이 없는 저수준 브라우저 자동화 라이브러리입니다. browser-use는 에이전트 레이어를 추가합니다: 브라우저 상태를 LLM 읽기 가능한 형식으로 변환하고, LLM 액션을 Playwright 명령으로 변환하고, 페이지 간 다단계 작업 분해를 처리합니다.

브라우저 Use 에이전트가 로그인 및 인증된 세션을 처리할 수 있나요?

예, 하지만 인증된 세션 처리는 가장 위험한 작업 중 하나입니다. OpenLegion은 네트워크 레이어에서 Vault 프록시를 통해 세션 자격 증명을 주입합니다.

브라우저 에이전트는 CAPTCHA를 어떻게 처리하나요?

세 가지 접근 방식: 행동 브라우저(핑거프린트 저항), 솔버 서비스(1,000당 $1~~3, 10~~60초 지연), 휴먼인더루프 폴백. OpenLegion은 대시보드를 통해 휴먼인더루프 CAPTCHA 핸드오프를 지원합니다.