Browser Use एजेंट: AI एजेंट वेब को कैसे नेविगेट और नियंत्रित करते हैं
Browser Use एजेंट AI सिस्टम हैं जो बिना किसी मानवीय हस्तक्षेप के वेब ब्राउज़र को स्वायत्त रूप से नियंत्रित करते हैं: URL नेविगेट करना, बटन क्लिक करना, फॉर्म भरना, सामग्री निकालना और प्रमाणीकरण संभालना। ये 2026 में AI एजेंट टूल की सबसे तेज़ी से बढ़ती श्रेणी हैं, जो browser-use (मई 2026 तक GitHub पर 96,282 स्टार) जैसे फ्रेमवर्क द्वारा संचालित हैं।
Browser Use एजेंट क्या है?
Browser Use एजेंट एक AI एजेंट है जो DOM ट्रैवर्सल, एक्सेसिबिलिटी ट्री पार्सिंग, स्क्रीनशॉट ग्राउंडिंग और LLM-निर्देशित एक्शन चयन का उपयोग करके हेडलेस या हेडेड वेब ब्राउज़र को प्रोग्रामेटिक रूप से चलाता है और वेब-आधारित कार्यों को स्वायत्त रूप से पूरा करता है।
Browser Use एजेंट कैसे काम करते हैं
धारणा: DOM, एक्सेसिबिलिटी ट्री और स्क्रीनशॉट ग्राउंडिंग
ब्राउज़र एजेंट को कार्रवाई करने से पहले वर्तमान पृष्ठ स्थिति को समझना होगा। तीन धारणा रणनीतियाँ सामान्य हैं।
DOM निष्कर्षण पृष्ठ की कच्ची HTML संरचना को पार्स करता है। तेज़ और टोकन-कुशल, लेकिन कैनवास-रेंडर्ड सामग्री और जटिल SPA पर विफल होता है।
एक्सेसिबिलिटी ट्री ब्राउज़र की अंतर्निहित एक्सेसिबिलिटी परत पढ़ता है और पृष्ठ का संरचित सेमांटिक दृश्य प्रदान करता है। browser-use की यही प्राथमिक धारणा विधि है।
स्क्रीनशॉट ग्राउंडिंग पृष्ठ का विज़ुअल स्क्रीनशॉट लेता है और उसे विज़न-सक्षम LLM को पास करता है। उन पृष्ठों को संभालता है जहाँ DOM और एक्सेसिबिलिटी ट्री अविश्वसनीय हैं, लेकिन प्रति चरण टोकन लागत काफी अधिक है।
एक्शन: क्लिक, टाइप, नेविगेट, फॉर्म सबमिट करना
ब्राउज़र एजेंट का एक्शन स्थान व्यापक है: URL पर नेविगेट करना, तत्वों पर क्लिक करना, टेक्स्ट टाइप करना, कुंजियाँ दबाना, स्क्रॉल करना, ड्रॉपडाउन चुनना, फ़ाइलें अपलोड करना या ब्राउज़र टैब स्विच करना। प्रत्येक एक्शन पृष्ठ की स्थिति बदलता है।
browser-use लाइब्रेरी
7 महीने से कम में 96,282 स्टार
browser-use (GitHub: browser-use/browser-use) 31 अक्टूबर 2024 को लॉन्च हुई और मई 2026 तक 96,282 स्टार और 10,802 फोर्क प्राप्त किए। लाइब्रेरी Playwright सेशन प्रबंधन, एक्सेसिबिलिटी ट्री निष्कर्षण और एक्शन सीरियलाइज़ेशन को एब्स्ट्रैक्ट करती है।
Playwright बैकएंड: browser-use Chromium को कैसे नियंत्रित करता है
browser-use Microsoft की Playwright ऑटोमेशन लाइब्रेरी को रैप करता है और एजेंट लेयर जोड़ता है: एक्सेसिबिलिटी ट्री निकालना, उसे टोकन-कुशल फॉर्मेट में बदलना, LLM के एक्शन निर्णयों को Playwright कमांड में अनुवाद करना।
LLM एकीकरण: GPT-4o, Claude, Gemini रीज़निंग लेयर के रूप में
browser-use रीज़निंग लेयर पर LLM-अज्ञेयवादी है, OpenAI, Anthropic, Google और किसी भी OpenAI-संगत API एंडपॉइंट को सपोर्ट करता है।
OpenLegion का दृष्टिकोण: ब्राउज़र एजेंट सबसे जोखिम भरा टूल है
ब्राउज़र एजेंट एजेंटिक AI में सबसे जोखिम भरी टूल श्रेणी है। एक ब्राउज़र एजेंट जो क्लिक कर सकता है, फॉर्म भर सकता है और रीडायरेक्ट फॉलो कर सकता है, उसके पास पूर्ण इंटरनेट एक्सेस वाले इंसान जैसी ही अटैक सर्फेस है।
150 सेकंड में क्रेडेंशियल चोरी का प्रदर्शन
2025 में सार्वजनिक रूप से दर्ज शोध में दिखाया गया कि वेब पेजों में एम्बेड किए गए छिपे निर्देशों के माध्यम से 150 सेकंड से कम में ब्राउज़र एजेंट को क्रेडेंशियल चुराने के लिए हेरफेर किया जा सकता है। सुरक्षा आर्किटेक्चरल है: यदि क्रेडेंशियल एजेंट के संदर्भ या प्रोसेस मेमोरी में मौजूद नहीं हैं, तो इंजेक्शन उन्हें निकाल नहीं सकता। OpenLegion का Vault Proxy सुनिश्चित करता है कि सेशन क्रेडेंशियल नेटवर्क लेयर पर इंजेक्ट किए जाते हैं, एजेंट के कॉन्टेक्स्ट विंडो में कभी नहीं दिखते।
OWASP LLM08 अत्यधिक एजेंसी और ब्राउज़र अनुमतियाँ
OWASP LLM टॉप 10 2025 अत्यधिक एजेंसी (LLM08) को शीर्ष जोखिम श्रेणी के रूप में रैंक करता है। ब्राउज़र एजेंट इस जोखिम का विशिष्ट उदाहरण है: नेविगेट, पढ़ने, फॉर्म भरने और बटन क्लिक करने की अनुमतियों वाला एजेंट खरीदारी कर सकता है, संदेश भेज सकता है, खाते हटा सकता है और डेटा एक्सफिल्ट्रेट कर सकता है।
OpenLegion ब्राउज़र एजेंटों को कैसे सैंडबॉक्स करता है (Camoufox + Zone 1)
OpenLegion प्रत्येक एजेंट के Zone 1 Docker कंटेनर के अंदर पोर्ट :8500 पर एक पृथक Camoufox ब्राउज़र इंस्टेंस चलाता है, प्रति एजेंट एक। चार विशेषताएं: कोई साझा सेशन स्थिति नहीं, फिंगरप्रिंट प्रतिरोध, Vault Proxy क्रेडेंशियल, Mesh Host के माध्यम से नेटवर्क रूटिंग।
ब्राउज़र एजेंट आर्किटेक्चर पैटर्न
हेडलेस बनाम हेडेड
हेडलेस मोड तेज़ है और सर्वर वातावरण में काम करता है, लेकिन बॉट प्रोटेक्शन सिस्टम द्वारा पहचाना जा सकता है। Camoufox हेडलेस मोड में चलता है लेकिन उन JavaScript API को पैच करता है जिन्हें हेडलेस डिटेक्शन स्क्रिप्ट टार्गेट करती हैं।
CAPTCHA हैंडलिंग
तीन दृष्टिकोण: बिहेवियरल ब्राउज़र (फिंगरप्रिंट प्रतिरोध), सॉल्वर सेवाएं (1,000 समाधान पर $1-3), ह्यूमन-इन-द-लूप फॉलबैक। OpenLegion डैशबोर्ड के माध्यम से ह्यूमन-इन-द-लूप CAPTCHA हैंडऑफ सपोर्ट करता है।
क्रेडेंशियल इंजेक्शन: Vault Proxy बनाम हार्डकोडेड कुकीज़
सबसे बुरा: एजेंट निर्देशों में सीधे क्रेडेंशियल। बुरा: एनवायरनमेंट वेरिएबल (os.environ के माध्यम से सुलभ)। सही: नेटवर्क लेयर पर Vault Proxy इंजेक्शन।
Browser Use एजेंट: आर्किटेक्चर तुलना
| आयाम | OpenLegion | browser-use | Raw Playwright | Stagehand |
|---|---|---|---|---|
| एक्जीक्यूशन बैकएंड | Camoufox (Firefox, फिंगरप्रिंट-रेजिस्टेंट) | Playwright (Chromium) | Playwright | क्लाउड Chromium |
| सेशन आइसोलेशन | प्रति एजेंट कंटेनर | साझा प्रोसेस | इम्प्लीमेंटेशन-निर्भर | क्लाउड-प्रबंधित |
| क्रेडेंशियल हैंडलिंग | Vault Proxy इंजेक्शन | कॉन्टेक्स्ट विंडो के माध्यम से | मैनुअल इम्प्लीमेंटेशन | प्रबंधित |
| CAPTCHA सपोर्ट | Camoufox फिंगरप्रिंट + ह्यूमन-इन-लूप | कोई नहीं | कोई नहीं | सॉल्वर सेवा |
| कंटेनर सैंडबॉक्सिंग | Zone 1 Docker, non-root | कोई नहीं | कोई नहीं | क्लाउड सैंडबॉक्स |
| GitHub स्टार | — | 96,282 (मई 2026) | N/A | ~9,000 |
| लाइसेंस | BSL 1.1 | MIT | Apache 2.0 | MIT |
ब्राउज़र एजेंट कब उपयोग करें (और कब नहीं)
वैध उपयोग मामले: वेब रिसर्च और डेटा निष्कर्षण, अपनी सेवाओं के लिए फॉर्म ऑटोमेशन, मॉनिटरिंग और परीक्षण। अतिरिक्त नियंत्रण वाले उपयोग मामले: प्रमाणित सेशन, वित्तीय साइटें। बिना सख्त सैंडबॉक्सिंग के बचें: अविश्वसनीय उपयोगकर्ता-प्रदत्त URL।
OpenLegion पर सुरक्षित ब्राउज़र एजेंट शुरू करें
पृथक कंटेनरों में Vault Proxy क्रेडेंशियल और प्रति-एजेंट नेटवर्क नियंत्रण के साथ ब्राउज़र एजेंट चलाएं।
अक्सर पूछे जाने वाले प्रश्न
Browser Use एजेंट क्या हैं?
Browser Use एजेंट AI सिस्टम हैं जो DOM ट्रैवर्सल, एक्सेसिबिलिटी ट्री पार्सिंग और LLM-निर्देशित एक्शन चयन के माध्यम से वेब ब्राउज़र को स्वायत्त रूप से नियंत्रित करते हैं। browser-use लाइब्रेरी (GitHub स्टार 96,282, MIT लाइसेंस, अक्टूबर 2024 में लॉन्च) सबसे व्यापक रूप से अपनाया गया ओपन-सोर्स कार्यान्वयन है।
browser-use लाइब्रेरी कैसे काम करती है?
browser-use Microsoft के Playwright को रैप करता है, LLM को ब्राउज़र एक्सेसिबिलिटी ट्री का संरचित दृश्य देता है और फिर LLM के एक्शन निर्णयों को Playwright कमांड में अनुवाद करता है। GPT-4o, Claude, Gemini और संगत LLM को सपोर्ट करता है, MIT लाइसेंस, लगभग 20 लाइन Python में एक काम करने वाला एजेंट बनाता है।
Browser Use एजेंट के सुरक्षा जोखिम क्या हैं?
तीन मुख्य जोखिम: वेब सामग्री के माध्यम से प्रॉम्प्ट इंजेक्शन (2025 डेमो ने 150 सेकंड में क्रेडेंशियल चोरी दिखाई), क्रेडेंशियल लीकेज (यदि सेशन कुकीज़ एजेंट की प्रोसेस मेमोरी में हैं), अत्यधिक एजेंसी (OWASP LLM08:2025)। ज़ीरो-क्लिक लिंक प्रीव्यू एक्सफिल्ट्रेशन भी प्रदर्शित किया गया है।
ब्राउज़र एजेंट को सुरक्षित रूप से कैसे चलाएं?
चार नियंत्रण आवश्यक हैं: कंटेनर आइसोलेशन, Vault Proxy क्रेडेंशियल, नेटवर्क एग्रेस नियंत्रण, प्रति-एजेंट बजट सीमाएं। OpenLegion की Camoufox-समर्थित ब्राउज़र सेवा Zone 1 Docker कंटेनरों के अंदर डिफ़ॉल्ट रूप से चारों को लागू करती है।
Camoufox क्या है और OpenLegion इसे क्यों उपयोग करता है?
Camoufox Firefox-आधारित हेडलेस ब्राउज़र है जो हेडलेस सिग्नेचर की बजाय वास्तविक हार्डवेयर प्रोफाइल रिपोर्ट करने के लिए JavaScript API पैच करता है। OpenLegion प्रत्येक Zone 1 Docker कंटेनर में पोर्ट :8500 पर प्रति एजेंट एक Camoufox इंस्टेंस चलाता है।
AI एजेंट के लिए browser-use और Playwright में क्या अंतर है?
Playwright AI एजेंट की कोई अवधारणा नहीं रखने वाली निम्न-स्तरीय ब्राउज़र ऑटोमेशन लाइब्रेरी है। browser-use एजेंट लेयर जोड़ता है: ब्राउज़र स्थिति को LLM-पठनीय फॉर्मेट में बदलना, LLM एक्शन को Playwright कमांड में अनुवाद करना, पृष्ठों के पार बहु-चरण कार्य विघटन संभालना।
क्या Browser Use एजेंट लॉगिन और प्रमाणित सेशन संभाल सकते हैं?
हाँ, लेकिन प्रमाणित सेशन हैंडलिंग सबसे जोखिम भरी कार्रवाइयों में से एक है। OpenLegion Vault Proxy के माध्यम से नेटवर्क लेयर पर सेशन क्रेडेंशियल इंजेक्ट करता है।
ब्राउज़र एजेंट CAPTCHA को कैसे संभालते हैं?
तीन दृष्टिकोण: बिहेवियरल ब्राउज़र (फिंगरप्रिंट प्रतिरोध), सॉल्वर सेवाएं (1,000 पर $1-3, 10-60 सेकंड की विलंबता), ह्यूमन-इन-द-लूप फॉलबैक। OpenLegion डैशबोर्ड के माध्यम से ह्यूमन-इन-द-लूप CAPTCHA हैंडऑफ सपोर्ट करता है।