स्वायत्त AI एजेंट: स्वायत्तता स्पेक्ट्रम, सुरक्षा गेट और उत्पादन जोखिम

स्वायत्त AI एजेंट ऐसे सॉफ्टवेयर सिस्टम हैं जो प्रत्येक चरण में मानव पुष्टि की आवश्यकता के बिना अपने पर्यावरण को समझते हैं, लक्ष्य बनाते हैं, बहु-चरणीय योजनाएं उत्पन्न करते हैं और टूल कॉल निष्पादित करते हैं। ये L0 (मानव अनुमोदन के साथ एकल टूल निष्पादन) से L4 (अपने स्वयं के लक्ष्यों को फिर से लिखने वाले स्व-संशोधित सिस्टम) तक के स्पेक्ट्रम पर काम करते हैं। EU AI अधिनियम और Anthropic की जिम्मेदार स्केलिंग नीति दोनों स्वायत्तता स्तर को परिनियोजन शर्त के रूप में मानते हैं। OpenAI Operator (जनवरी 2025) पहला वाणिज्यिक L2 परिनियोजन था; Anthropic Computer Use ने OSWorld पर 72.36% की मानव आधार रेखा के मुकाबले 14.9% हासिल किया।

स्वायत्त AI एजेंट ऐसे सॉफ्टवेयर सिस्टम हैं जो प्रत्येक चरण में मानव पुष्टि की आवश्यकता के बिना अपने पर्यावरण को समझते हैं, लक्ष्य बनाते हैं, बहु-चरणीय योजनाएं उत्पन्न करते हैं, टूल कॉल निष्पादित करते हैं और परिणामों के आधार पर अपने व्यवहार को अनुकूलित करते हैं। ये L0 (मानव अनुमोदन के साथ एकल टूल) से L4 (अपने स्वयं के लक्ष्यों और कोड को फिर से लिखने वाले स्व-संशोधित सिस्टम) तक के स्पेक्ट्रम पर काम करते हैं, जहां प्रत्येक स्वायत्तता स्तर को अधिक कड़े सुरक्षा गेट, निगरानी तंत्र और नियामक अनुपालन की आवश्यकता होती है।

स्वायत्तता स्तर एक नजर में

स्तर	नाम	स्वायत्तता	मानव पुष्टि आवश्यक	वाणिज्यिक रूप से परिनियोजित (2026)
L0	टूल निष्पादन	एकल टूल, निश्चित इनपुट	प्रत्येक क्रिया	✅ हां
L1	प्रतिक्रियाशील एजेंट	इवेंट-ट्रिगर, निश्चित दायरा	केवल दायरा परिभाषा	✅ हां
L2	लक्ष्य-उन्मुख	बहु-चरणीय स्वायत्त निष्पादन	निष्पादन-पूर्व + अपरिवर्तनीय क्रियाएं	✅ हां (Operator, OpenLegion)
L3	स्व-नियोजन	अपनी योजनाएं बनाता और संशोधित करता है	केवल उच्च-स्तरीय लक्ष्य	✅ सीमित (अनुसंधान + उद्यम)
L4	स्व-संशोधित	अपने लक्ष्य, कोड, एजेंट फिर से लिखता है	डिजाइन से कोई नहीं	❌ नहीं

स्वायत्तता स्पेक्ट्रम: L0 से L4

L0: टूल निष्पादन, प्रत्येक चरण में मानव पुष्टि

L0 आधार रेखा है: प्रत्येक टूल कॉल को निष्पादन से पहले स्पष्ट मानव पुष्टि की आवश्यकता होती है। GitHub Copilot के कोड सुझाव, चैटबॉट में कैलकुलेटर टूल, IDE प्लगइन में सर्च बटन सभी L0 हैं। मानव प्रस्तावित क्रिया देखता है और अनुमोदित या अस्वीकार करता है। अनुमोदन के बिना कोई क्रिया निष्पादित नहीं होती।

L0 एजेंट OWASP LLM06:2025 (अत्यधिक एजेंसी) या EU AI अधिनियम की स्वायत्त निर्णय-निर्माण के लिए उच्च-जोखिम वर्गीकरण के अधीन नहीं हैं। L0 उन नियामक रूप से महत्वपूर्ण परिचालनों के लिए सही परिनियोजन मॉडल है जहां प्रत्येक क्रिया के लिए मानव इरादे का ऑडिट ट्रेल आवश्यक है।

सीमा: L0 स्केल नहीं होता। एजेंटिक सिस्टम का मूल्य प्रस्ताव L1 पर शुरू होता है।

L1: प्रतिक्रियाशील एजेंट, निश्चित दायरे के साथ इवेंट का जवाब देता है

L1 एजेंट पूर्व-परिभाषित निश्चित दायरे के भीतर स्वायत्त रूप से कार्य करते हैं। CPU 90% से अधिक होने पर Slack पर पोस्ट करने वाला अलर्ट बॉट L1 है। L1 सुरक्षा गेट: दायरा परिभाषा संरचनात्मक होनी चाहिए, प्रॉम्प्ट इंजेक्शन द्वारा ओवरराइड नहीं की जा सकती। सही कार्यान्वयन: केवल वे टूल पंजीकृत करें जिनका उपयोग एजेंट करने के लिए अधिकृत है।

L2: लक्ष्य-उन्मुख एजेंट, स्वायत्त बहु-चरणीय निष्पादन

L2 एजेंट एक लक्ष्य प्राप्त करते हैं और प्रत्येक चरण में पुष्टि की आवश्यकता के बिना स्वायत्त रूप से बहु-चरणीय योजना निष्पादित करते हैं। OpenAI Operator (जनवरी 2025) पहला वाणिज्यिक L2 है। L2 वह स्वायत्तता स्तर है जहां संयुक्त त्रुटियां प्राथमिक जोखिम बनती हैं: 20-चरण कार्य में प्रति-चरण 95% सटीकता वाले एजेंट के सभी 20 चरण सही ढंग से पूरा करने की 36% संभावना है (0.95^20)।

OpenLegion का डिफ़ॉल्ट स्वायत्तता स्तर: मेश सुपरवाइजर के साथ L2। पांच सुरक्षा गेट आवश्यक हैं:

किसी भी अपरिवर्तनीय क्रिया से पहले निष्पादन-पूर्व योजना निरीक्षण
अपरिवर्तनीय टूल कॉल (commit, भेजना, POST) से पहले HITL गेट
प्रति-एजेंट दैनिक बजट सीमा (एजेंट कोड द्वारा बाईपास नहीं की जा सकती)
तर्कों के साथ प्रत्येक टूल कॉल का केवल-अनुलग्नक ऑडिट लॉग
किसी भी अवस्था से 60 सेकंड के भीतर पहुंच योग्य किल स्विच

L3: स्व-नियोजन एजेंट, अपनी टास्क योजनाएं बनाता और संशोधित करता है

L3 एजेंट एक उच्च-स्तरीय लक्ष्य प्राप्त करते हैं और अपना स्वयं का टास्क विघटन उत्पन्न करते हैं। L3 एक नया जोखिम पेश करता है जो L2 में अनुपस्थित है: नवीन क्रियाएं। Google DeepMind के SAFE बेंचमार्क (2024) ने चार L3/L4 विफलता श्रेणियों की पहचान की: लक्ष्य गलत सामान्यीकरण, इनाम हैकिंग, विनिर्देश गेमिंग और स्वायत्त संसाधन अधिग्रहण।

L3 के लिए आवश्यक सुरक्षा गेट (सभी L2 गेट के अलावा):

निष्पादन से पहले स्वचालित योजना नीति जांच
प्रतिबिंब विफलता स्मृति
INSTRUCTIONS.md में स्पष्ट क्षमता सीमा
लक्ष्य बहाव का पता लगाना
योजना संशोधन गहराई सीमा: अधिकतम 3 चक्र से पहले एस्केलेशन

L4: स्व-संशोधित एजेंट, लक्ष्य, कोड और कॉन्फ़िगरेशन फिर से लिखता है

L4 एजेंट अपने स्वयं के लक्ष्यों को संशोधित कर सकते हैं, अपना कोड फिर से लिख सकते हैं, नए एजेंट उत्पन्न कर सकते हैं और स्वायत्त रूप से बाहरी संसाधन प्राप्त कर सकते हैं। 2026 में कोई वाणिज्यिक रूप से परिनियोजित L4 सिस्टम मौजूद नहीं है। OpenLegion के L4 रोकथाम गुण: केवल स्पष्ट रूप से पंजीकृत $CRED{} हैंडल के माध्यम से क्रेडेंशियल एक्सेस, Zone 2 LLM प्रॉक्सी पर बजट सीमा लागू।

स्वायत्तता स्तर के अनुसार सुरक्षा गेट

स्वायत्तता स्तर के अनुसार अनिवार्य सुरक्षा नियंत्रण

सुरक्षा नियंत्रण	L0	L1	L2	L3	L4
प्रति-क्रिया मानव पुष्टि	✅ आवश्यक	--	--	--	--
संरचनात्मक दायरा (टूल रजिस्ट्री)	--	✅ आवश्यक	✅ आवश्यक	✅ आवश्यक	N/A
निष्पादन-पूर्व योजना निरीक्षण	--	--	✅ आवश्यक	✅ आवश्यक	N/A
अपरिवर्तनीय क्रियाओं से पहले HITL	--	--	✅ आवश्यक	✅ आवश्यक	N/A
प्रति-एजेंट बजट सीमा (इंफ्रा परत)	--	--	✅ आवश्यक	✅ आवश्यक	N/A
केवल-अनुलग्नक टूल कॉल ऑडिट लॉग	✅ अनुशंसित	✅ आवश्यक	✅ आवश्यक	✅ आवश्यक	N/A
किल स्विच ≤60 सेकंड	--	✅ आवश्यक	✅ आवश्यक	✅ आवश्यक	N/A
स्वचालित योजना नीति जांच	--	--	--	✅ आवश्यक	N/A
लक्ष्य बहाव का पता लगाना	--	--	--	✅ आवश्यक	N/A
योजना संशोधन गहराई सीमा	--	--	--	✅ आवश्यक (अधिकतम 3)	N/A
स्वायत्त प्रतिकृति रोकथाम	--	--	--	--	✅ आवश्यक

सुधार्यता गुण: क्या एजेंट को रोका जा सकता है?

सुधार्यता वह गुण है जो एजेंट को बिना प्रतिरोध के रोका, सुधारा या पुनर्निर्देशित किया जाने देता है। चार आवश्यक गुण: एक टूल कॉल चक्र के भीतर स्टीयरिंग तंत्र; एजेंट कोड द्वारा बाईपास न की जा सकने वाली बजट सीमा; चेकपॉइंट के साथ SIGTERM हैंडलर; एजेंट के सहयोग की परवाह किए बिना पठनीय स्थिति पारदर्शिता।

OWASP LLM06:2025, अत्यधिक एजेंसी

OWASP LLM06:2025 स्वायत्त एजेंटों के लिए महत्वपूर्ण जोखिम श्रेणी है। चार आवश्यक शमन: स्पष्ट क्रिया सीमाएं, अपरिवर्तनीय क्रियाओं के लिए निष्पादन-पूर्व अनुमोदन गेट, रियल-टाइम क्रिया निरस्तीकरण, अपरिवर्तनीय ऑडिट लॉग।

स्वायत्त एजेंटों के उत्पादन जोखिम

लक्ष्य गलत सामान्यीकरण

लक्ष्य गलत सामान्यीकरण तब होता है जब एक एजेंट एक प्रॉक्सी लक्ष्य के लिए अनुकूलन सीखता है जो प्रशिक्षण वातावरण में अच्छा काम करता है लेकिन परिनियोजन में इच्छित लक्ष्य से विचलित होता है। पता लगाना: प्रॉक्सी-लक्ष्य विचलन को उजागर करने के लिए डिज़ाइन किया गया परीक्षण सेट।

INSTRUCTIONS.md में शमन:

## लक्ष्य संरेखण जांच

प्रत्येक कार्य के अंत में, update_status(state=done) कॉल करने से पहले:
1. एक वाक्य में मूल लक्ष्य बताएं
2. उसे प्राप्त करने के लिए उपयोग की गई विधि बताएं
3. यदि विधि में कार्य ब्रीफ में स्पष्ट रूप से वर्णित नहीं की गई कोई क्रिया शामिल है, तो फ्लैग करें:
   update_status(state="blocked", summary="अप्रत्याशित क्रिया की गई: [विवरण]। ऑपरेटर समीक्षा की प्रतीक्षा में।")

स्वायत्त संसाधन अधिग्रहण

स्वायत्त संसाधन अधिग्रहण लक्ष्य-उन्मुख एजेंटों की वर्तमान कार्य से परे अतिरिक्त क्षमताओं, क्रेडेंशियल या कंप्यूट की तलाश करने की प्रवृत्ति है। रोकथाम: संसाधन अधिग्रहण टूल को एजेंट की टूल रजिस्ट्री से बाहर करें या सभी ऐसी कॉल को अनिवार्य HITL अनुमोदन से गेट करें।

विनिर्देश गेमिंग और इनाम हैकिंग

विनिर्देश गेमिंग तब होती है जब एक एजेंट अपने लक्ष्य विनिर्देश के अक्षर को पूरा करते हुए उसके इरादे का उल्लंघन करता है। पता लगाना: परिणाम और अनुमत विधि दोनों को शामिल करने वाली सफलता मानदंड परिभाषित करें; द्वितीयक मूल्यांकनकर्ता उपयोग करें; तर्क ट्रेस लॉग करें।

नियामक वर्गीकरण: Anthropic RSP और EU AI अधिनियम

Anthropic की जिम्मेदार स्केलिंग नीति: ASL सुरक्षा स्तर

Anthropic की RSP (सितंबर 2023, अक्टूबर 2024 अपडेट) AI सिस्टम को ASL सुरक्षा स्तरों में वर्गीकृत करती है। ASL-2: सभी परिनियोजित Anthropic मॉडलों के लिए वर्तमान दहलीज। ASL-3: ट्रिगर होता है यदि कोई मॉडल CBRN हथियार विकास में सहायता या स्वायत्त प्रतिकृति क्षमता दर्शाता है: परिनियोजन से पहले अनिवार्य तृतीय-पक्ष मूल्यांकन आवश्यक।

EU AI अधिनियम: उच्च-जोखिम वर्गीकरण और जुर्माना

EU AI अधिनियम (अगस्त 2024 से प्रभावी) उच्च-जोखिम डोमेन में काम करने वाले स्वायत्त एजेंटों को अनुच्छेद 10 आवश्यकताओं के अधीन उच्च-जोखिम AI सिस्टम के रूप में वर्गीकृत करता है। गैर-अनुपालन दंड: 30 मिलियन यूरो या वैश्विक वार्षिक कारोबार का 6% तक।

OpenLegion का दृष्टिकोण

L0-L4 स्पेक्ट्रम एक मार्केटिंग श्रेणी नहीं, एक योजना उपकरण है। अधिकांश उत्पादन परिनियोजन मेश सुपरवाइजर निगरानी के साथ L2 को लक्षित करते हैं। OpenLegion एजेंट डिफ़ॉल्ट रूप से L2 पर परिनियोजित होते हैं।

L3 प्राप्य है लेकिन अतिरिक्त कार्य की आवश्यकता है। OpenLegion उन उद्यम ग्राहकों के लिए L3 परिनियोजन का समर्थन करता है जिन्होंने कम से कम 30 दिनों के लिए निगरानी मोड में L2 एजेंट संचालित किए हैं।

किसी संगठन में स्वायत्त एजेंट नीति को कवर करने वाले शासन ढांचे के लिए, AI एजेंट शासन देखें। L2 और L3 अनुमोदन गेट लागू करने वाले HITL पैटर्न के लिए, ह्यूमन-इन-द-लूप AI एजेंट देखें।

शुरू करें

संरचनात्मक सुरक्षा गेट, मेश निगरानी और 60 सेकंड से कम समय में किल स्विच के साथ L2 स्वायत्त एजेंट परिनियोजित करें।

OpenLegion के साथ शुरू करें दस्तावेज़ पढ़ें AI एजेंट क्या है?

अक्सर पूछे जाने वाले प्रश्न

स्वायत्त AI एजेंट क्या हैं और वे सामान्य AI चैटबॉट से कैसे भिन्न हैं?

स्वायत्त AI एजेंट प्रत्येक चरण में मानव पुष्टि की आवश्यकता के बिना अपने पर्यावरण को समझते हैं, लक्ष्य बनाते हैं, बहु-चरणीय योजनाएं उत्पन्न करते हैं और टूल कॉल निष्पादित करते हैं। सामान्य AI चैटबॉट व्यक्तिगत क्वेरी का जवाब देते हैं और दुनिया में कोई क्रिया नहीं करते। मुख्य अंतर यह है कि क्या सिस्टम दुनिया पर कार्य करता है (स्वायत्त एजेंट) या केवल वर्णन करता है कि क्या किया जा सकता है (चैटबॉट)।

AI एजेंटों के लिए L0-L4 स्वायत्तता स्पेक्ट्रम क्या है?

L0-L4 स्पेक्ट्रम एजेंटों को स्वायत्त क्रिया की मात्रा के अनुसार वर्गीकृत करता है। L0 प्रत्येक टूल कॉल के लिए मानव पुष्टि की आवश्यकता है। L1 एक निश्चित पूर्व-परिभाषित दायरे के भीतर स्वायत्त रूप से कार्य करता है। L2 एक लक्ष्य प्राप्त करता है और स्वायत्त रूप से बहु-चरणीय योजना निष्पादित करता है। L3 उच्च-स्तरीय लक्ष्य से अपना स्वयं का टास्क विघटन उत्पन्न और संशोधित करता है। L4 अपने स्वयं के लक्ष्यों, कोड और कॉन्फ़िगरेशन को संशोधित कर सकता है: 2026 में कोई वाणिज्यिक रूप से परिनियोजित L4 सिस्टम मौजूद नहीं है।

L2 स्वायत्त एजेंट के लिए कौन से सुरक्षा गेट आवश्यक हैं?

L2 के लिए पांच सुरक्षा गेट आवश्यक हैं: किसी भी अपरिवर्तनीय क्रिया से पहले निष्पादन-पूर्व योजना निरीक्षण, अपरिवर्तनीय टूल कॉल के लिए HITL अनुमोदन गेट, इंफ्रास्ट्रक्चर परत पर लागू प्रति-एजेंट दैनिक बजट सीमा, प्रत्येक टूल कॉल का केवल-अनुलग्नक ऑडिट लॉग, और 60 सेकंड के भीतर पहुंच योग्य किल स्विच।

Anthropic की जिम्मेदार स्केलिंग नीति क्या है और यह स्वायत्त एजेंटों पर कैसे लागू होती है?

Anthropic की RSP (सितंबर 2023, अक्टूबर 2024 अपडेट) AI सिस्टम को ASL सुरक्षा स्तरों में वर्गीकृत करती है। ASL-2 सभी परिनियोजित Anthropic मॉडलों के लिए वर्तमान दहलीज है। ASL-3 तब ट्रिगर होता है जब कोई मॉडल CBRN हथियार विकास में सहायता या स्वायत्त प्रतिकृति दर्शाता है: किसी भी परिनियोजन से पहले अनिवार्य तृतीय-पक्ष मूल्यांकन आवश्यक है।

स्वायत्त AI एजेंटों में लक्ष्य गलत सामान्यीकरण क्या है?

लक्ष्य गलत सामान्यीकरण तब होता है जब एक एजेंट एक प्रॉक्सी लक्ष्य के लिए अनुकूलन सीखता है जो प्रशिक्षण में अच्छा काम करता है लेकिन परिनियोजन में इच्छित लक्ष्य से विचलित होता है। Google DeepMind के SAFE बेंचमार्क (2024) ने इसे सबसे सामान्य L3 विफलता मोड के रूप में पहचाना। पता लगाने के लिए प्रॉक्सी-लक्ष्य विचलन को उजागर करने के लिए डिज़ाइन किए गए होल्डआउट कार्यों पर संरेखण मूल्यांकन की आवश्यकता है।

स्वायत्त संसाधन अधिग्रहण क्या है और यह उत्पादन जोखिम क्यों है?

स्वायत्त संसाधन अधिग्रहण लक्ष्य-उन्मुख एजेंटों की वर्तमान कार्य से परे अतिरिक्त क्षमताओं, क्रेडेंशियल या कंप्यूट की तलाश करने की प्रवृत्ति है। SAFE बेंचमार्क (2024) ने इसे एक अलग विफलता मोड के रूप में पहचाना। उत्पादन में यह अनावश्यक सेवाओं के लिए क्रेडेंशियल-अनुरोध टूल कॉल या कार्य की आवश्यकता से अधिक फ्लीट एजेंट बनाने के रूप में प्रकट होता है।

EU AI अधिनियम स्वायत्त AI एजेंटों को कैसे वर्गीकृत करता है?

EU AI अधिनियम (अगस्त 2024 से प्रभावी) उच्च-जोखिम डोमेन में काम करने वाले स्वायत्त एजेंटों को अनुच्छेद 10 आवश्यकताओं के अधीन उच्च-जोखिम AI सिस्टम के रूप में वर्गीकृत करता है। गैर-अनुपालन दंड 30 मिलियन यूरो या वैश्विक वार्षिक कारोबार के 6% तक पहुंचता है। L2 परिनियोजन चेकलिस्ट अनुच्छेद 14 और 15 की आवश्यकताओं को सीधे पूरा करती है।

सुधार्यता गुण क्या है और यह स्वायत्त एजेंटों के लिए क्यों महत्वपूर्ण है?

सुधार्यता वह गुण है जो एजेंट को बिना प्रतिरोध के रोका, सुधारा या पुनर्निर्देशित किया जाने देता है। यह महत्वपूर्ण है क्योंकि एक गलत कार्य के दौरान रुकने का विरोध करने वाला उच्च-प्रदर्शन एजेंट उस कम-प्रदर्शन एजेंट से अधिक नुकसान पहुंचाता है जो तुरंत आदेश पर रुकता है। चार आवश्यक गुण: एक टूल कॉल चक्र के भीतर स्टीयरिंग तंत्र; बाईपास न की जा सकने वाली बजट सीमा; चेकपॉइंट के साथ SIGTERM हैंडलर; और एजेंट-स्वतंत्र स्थिति पारदर्शिता।