कंटेंट पर जाएँ
फ़ाउंडर प्राइसिंग — शुरुआती ग्राहकों के लिए लॉकशुरू करें →

स्वायत्त AI एजेंट: स्वायत्तता स्पेक्ट्रम, सुरक्षा गेट और उत्पादन जोखिम

स्वायत्त AI एजेंट ऐसे सॉफ्टवेयर सिस्टम हैं जो प्रत्येक चरण में मानव पुष्टि की आवश्यकता के बिना अपने पर्यावरण को समझते हैं, लक्ष्य बनाते हैं, बहु-चरणीय योजनाएं उत्पन्न करते हैं और टूल कॉल निष्पादित करते हैं। ये L0 (मानव अनुमोदन के साथ एकल टूल निष्पादन) से L4 (अपने स्वयं के लक्ष्यों को फिर से लिखने वाले स्व-संशोधित सिस्टम) तक के स्पेक्ट्रम पर काम करते हैं। EU AI अधिनियम और Anthropic की जिम्मेदार स्केलिंग नीति दोनों स्वायत्तता स्तर को परिनियोजन शर्त के रूप में मानते हैं। OpenAI Operator (जनवरी 2025) पहला वाणिज्यिक L2 परिनियोजन था; Anthropic Computer Use ने OSWorld पर 72.36% की मानव आधार रेखा के मुकाबले 14.9% हासिल किया।

स्वायत्त AI एजेंट ऐसे सॉफ्टवेयर सिस्टम हैं जो प्रत्येक चरण में मानव पुष्टि की आवश्यकता के बिना अपने पर्यावरण को समझते हैं, लक्ष्य बनाते हैं, बहु-चरणीय योजनाएं उत्पन्न करते हैं, टूल कॉल निष्पादित करते हैं और परिणामों के आधार पर अपने व्यवहार को अनुकूलित करते हैं। ये L0 (मानव अनुमोदन के साथ एकल टूल) से L4 (अपने स्वयं के लक्ष्यों और कोड को फिर से लिखने वाले स्व-संशोधित सिस्टम) तक के स्पेक्ट्रम पर काम करते हैं, जहां प्रत्येक स्वायत्तता स्तर को अधिक कड़े सुरक्षा गेट, निगरानी तंत्र और नियामक अनुपालन की आवश्यकता होती है।

स्वायत्तता स्तर एक नजर में

स्तरनामस्वायत्ततामानव पुष्टि आवश्यकवाणिज्यिक रूप से परिनियोजित (2026)
L0टूल निष्पादनएकल टूल, निश्चित इनपुटप्रत्येक क्रिया✅ हां
L1प्रतिक्रियाशील एजेंटइवेंट-ट्रिगर, निश्चित दायराकेवल दायरा परिभाषा✅ हां
L2लक्ष्य-उन्मुखबहु-चरणीय स्वायत्त निष्पादननिष्पादन-पूर्व + अपरिवर्तनीय क्रियाएं✅ हां (Operator, OpenLegion)
L3स्व-नियोजनअपनी योजनाएं बनाता और संशोधित करता हैकेवल उच्च-स्तरीय लक्ष्य✅ सीमित (अनुसंधान + उद्यम)
L4स्व-संशोधितअपने लक्ष्य, कोड, एजेंट फिर से लिखता हैडिजाइन से कोई नहीं❌ नहीं

स्वायत्तता स्पेक्ट्रम: L0 से L4

L0: टूल निष्पादन, प्रत्येक चरण में मानव पुष्टि

L0 आधार रेखा है: प्रत्येक टूल कॉल को निष्पादन से पहले स्पष्ट मानव पुष्टि की आवश्यकता होती है। GitHub Copilot के कोड सुझाव, चैटबॉट में कैलकुलेटर टूल, IDE प्लगइन में सर्च बटन सभी L0 हैं। मानव प्रस्तावित क्रिया देखता है और अनुमोदित या अस्वीकार करता है। अनुमोदन के बिना कोई क्रिया निष्पादित नहीं होती।

L0 एजेंट OWASP LLM06:2025 (अत्यधिक एजेंसी) या EU AI अधिनियम की स्वायत्त निर्णय-निर्माण के लिए उच्च-जोखिम वर्गीकरण के अधीन नहीं हैं। L0 उन नियामक रूप से महत्वपूर्ण परिचालनों के लिए सही परिनियोजन मॉडल है जहां प्रत्येक क्रिया के लिए मानव इरादे का ऑडिट ट्रेल आवश्यक है।

सीमा: L0 स्केल नहीं होता। एजेंटिक सिस्टम का मूल्य प्रस्ताव L1 पर शुरू होता है।

L1: प्रतिक्रियाशील एजेंट, निश्चित दायरे के साथ इवेंट का जवाब देता है

L1 एजेंट पूर्व-परिभाषित निश्चित दायरे के भीतर स्वायत्त रूप से कार्य करते हैं। CPU 90% से अधिक होने पर Slack पर पोस्ट करने वाला अलर्ट बॉट L1 है। L1 सुरक्षा गेट: दायरा परिभाषा संरचनात्मक होनी चाहिए, प्रॉम्प्ट इंजेक्शन द्वारा ओवरराइड नहीं की जा सकती। सही कार्यान्वयन: केवल वे टूल पंजीकृत करें जिनका उपयोग एजेंट करने के लिए अधिकृत है।

L2: लक्ष्य-उन्मुख एजेंट, स्वायत्त बहु-चरणीय निष्पादन

L2 एजेंट एक लक्ष्य प्राप्त करते हैं और प्रत्येक चरण में पुष्टि की आवश्यकता के बिना स्वायत्त रूप से बहु-चरणीय योजना निष्पादित करते हैं। OpenAI Operator (जनवरी 2025) पहला वाणिज्यिक L2 है। L2 वह स्वायत्तता स्तर है जहां संयुक्त त्रुटियां प्राथमिक जोखिम बनती हैं: 20-चरण कार्य में प्रति-चरण 95% सटीकता वाले एजेंट के सभी 20 चरण सही ढंग से पूरा करने की 36% संभावना है (0.95^20)।

OpenLegion का डिफ़ॉल्ट स्वायत्तता स्तर: मेश सुपरवाइजर के साथ L2। पांच सुरक्षा गेट आवश्यक हैं:

  1. किसी भी अपरिवर्तनीय क्रिया से पहले निष्पादन-पूर्व योजना निरीक्षण
  2. अपरिवर्तनीय टूल कॉल (commit, भेजना, POST) से पहले HITL गेट
  3. प्रति-एजेंट दैनिक बजट सीमा (एजेंट कोड द्वारा बाईपास नहीं की जा सकती)
  4. तर्कों के साथ प्रत्येक टूल कॉल का केवल-अनुलग्नक ऑडिट लॉग
  5. किसी भी अवस्था से 60 सेकंड के भीतर पहुंच योग्य किल स्विच

L3: स्व-नियोजन एजेंट, अपनी टास्क योजनाएं बनाता और संशोधित करता है

L3 एजेंट एक उच्च-स्तरीय लक्ष्य प्राप्त करते हैं और अपना स्वयं का टास्क विघटन उत्पन्न करते हैं। L3 एक नया जोखिम पेश करता है जो L2 में अनुपस्थित है: नवीन क्रियाएं। Google DeepMind के SAFE बेंचमार्क (2024) ने चार L3/L4 विफलता श्रेणियों की पहचान की: लक्ष्य गलत सामान्यीकरण, इनाम हैकिंग, विनिर्देश गेमिंग और स्वायत्त संसाधन अधिग्रहण।

L3 के लिए आवश्यक सुरक्षा गेट (सभी L2 गेट के अलावा):

  • निष्पादन से पहले स्वचालित योजना नीति जांच
  • प्रतिबिंब विफलता स्मृति
  • INSTRUCTIONS.md में स्पष्ट क्षमता सीमा
  • लक्ष्य बहाव का पता लगाना
  • योजना संशोधन गहराई सीमा: अधिकतम 3 चक्र से पहले एस्केलेशन

L4: स्व-संशोधित एजेंट, लक्ष्य, कोड और कॉन्फ़िगरेशन फिर से लिखता है

L4 एजेंट अपने स्वयं के लक्ष्यों को संशोधित कर सकते हैं, अपना कोड फिर से लिख सकते हैं, नए एजेंट उत्पन्न कर सकते हैं और स्वायत्त रूप से बाहरी संसाधन प्राप्त कर सकते हैं। 2026 में कोई वाणिज्यिक रूप से परिनियोजित L4 सिस्टम मौजूद नहीं है। OpenLegion के L4 रोकथाम गुण: केवल स्पष्ट रूप से पंजीकृत $CRED{} हैंडल के माध्यम से क्रेडेंशियल एक्सेस, Zone 2 LLM प्रॉक्सी पर बजट सीमा लागू।

स्वायत्तता स्तर के अनुसार सुरक्षा गेट

स्वायत्तता स्तर के अनुसार अनिवार्य सुरक्षा नियंत्रण

सुरक्षा नियंत्रणL0L1L2L3L4
प्रति-क्रिया मानव पुष्टि✅ आवश्यक--------
संरचनात्मक दायरा (टूल रजिस्ट्री)--✅ आवश्यक✅ आवश्यक✅ आवश्यकN/A
निष्पादन-पूर्व योजना निरीक्षण----✅ आवश्यक✅ आवश्यकN/A
अपरिवर्तनीय क्रियाओं से पहले HITL----✅ आवश्यक✅ आवश्यकN/A
प्रति-एजेंट बजट सीमा (इंफ्रा परत)----✅ आवश्यक✅ आवश्यकN/A
केवल-अनुलग्नक टूल कॉल ऑडिट लॉग✅ अनुशंसित✅ आवश्यक✅ आवश्यक✅ आवश्यकN/A
किल स्विच ≤60 सेकंड--✅ आवश्यक✅ आवश्यक✅ आवश्यकN/A
स्वचालित योजना नीति जांच------✅ आवश्यकN/A
लक्ष्य बहाव का पता लगाना------✅ आवश्यकN/A
योजना संशोधन गहराई सीमा------✅ आवश्यक (अधिकतम 3)N/A
स्वायत्त प्रतिकृति रोकथाम--------✅ आवश्यक

सुधार्यता गुण: क्या एजेंट को रोका जा सकता है?

सुधार्यता वह गुण है जो एजेंट को बिना प्रतिरोध के रोका, सुधारा या पुनर्निर्देशित किया जाने देता है। चार आवश्यक गुण: एक टूल कॉल चक्र के भीतर स्टीयरिंग तंत्र; एजेंट कोड द्वारा बाईपास न की जा सकने वाली बजट सीमा; चेकपॉइंट के साथ SIGTERM हैंडलर; एजेंट के सहयोग की परवाह किए बिना पठनीय स्थिति पारदर्शिता।

OWASP LLM06:2025, अत्यधिक एजेंसी

OWASP LLM06:2025 स्वायत्त एजेंटों के लिए महत्वपूर्ण जोखिम श्रेणी है। चार आवश्यक शमन: स्पष्ट क्रिया सीमाएं, अपरिवर्तनीय क्रियाओं के लिए निष्पादन-पूर्व अनुमोदन गेट, रियल-टाइम क्रिया निरस्तीकरण, अपरिवर्तनीय ऑडिट लॉग।

स्वायत्त एजेंटों के उत्पादन जोखिम

लक्ष्य गलत सामान्यीकरण

लक्ष्य गलत सामान्यीकरण तब होता है जब एक एजेंट एक प्रॉक्सी लक्ष्य के लिए अनुकूलन सीखता है जो प्रशिक्षण वातावरण में अच्छा काम करता है लेकिन परिनियोजन में इच्छित लक्ष्य से विचलित होता है। पता लगाना: प्रॉक्सी-लक्ष्य विचलन को उजागर करने के लिए डिज़ाइन किया गया परीक्षण सेट।

INSTRUCTIONS.md में शमन:

## लक्ष्य संरेखण जांच

प्रत्येक कार्य के अंत में, update_status(state=done) कॉल करने से पहले:
1. एक वाक्य में मूल लक्ष्य बताएं
2. उसे प्राप्त करने के लिए उपयोग की गई विधि बताएं
3. यदि विधि में कार्य ब्रीफ में स्पष्ट रूप से वर्णित नहीं की गई कोई क्रिया शामिल है, तो फ्लैग करें:
   update_status(state="blocked", summary="अप्रत्याशित क्रिया की गई: [विवरण]। ऑपरेटर समीक्षा की प्रतीक्षा में।")

स्वायत्त संसाधन अधिग्रहण

स्वायत्त संसाधन अधिग्रहण लक्ष्य-उन्मुख एजेंटों की वर्तमान कार्य से परे अतिरिक्त क्षमताओं, क्रेडेंशियल या कंप्यूट की तलाश करने की प्रवृत्ति है। रोकथाम: संसाधन अधिग्रहण टूल को एजेंट की टूल रजिस्ट्री से बाहर करें या सभी ऐसी कॉल को अनिवार्य HITL अनुमोदन से गेट करें।

विनिर्देश गेमिंग और इनाम हैकिंग

विनिर्देश गेमिंग तब होती है जब एक एजेंट अपने लक्ष्य विनिर्देश के अक्षर को पूरा करते हुए उसके इरादे का उल्लंघन करता है। पता लगाना: परिणाम और अनुमत विधि दोनों को शामिल करने वाली सफलता मानदंड परिभाषित करें; द्वितीयक मूल्यांकनकर्ता उपयोग करें; तर्क ट्रेस लॉग करें।

नियामक वर्गीकरण: Anthropic RSP और EU AI अधिनियम

Anthropic की जिम्मेदार स्केलिंग नीति: ASL सुरक्षा स्तर

Anthropic की RSP (सितंबर 2023, अक्टूबर 2024 अपडेट) AI सिस्टम को ASL सुरक्षा स्तरों में वर्गीकृत करती है। ASL-2: सभी परिनियोजित Anthropic मॉडलों के लिए वर्तमान दहलीज। ASL-3: ट्रिगर होता है यदि कोई मॉडल CBRN हथियार विकास में सहायता या स्वायत्त प्रतिकृति क्षमता दर्शाता है: परिनियोजन से पहले अनिवार्य तृतीय-पक्ष मूल्यांकन आवश्यक।

EU AI अधिनियम: उच्च-जोखिम वर्गीकरण और जुर्माना

EU AI अधिनियम (अगस्त 2024 से प्रभावी) उच्च-जोखिम डोमेन में काम करने वाले स्वायत्त एजेंटों को अनुच्छेद 10 आवश्यकताओं के अधीन उच्च-जोखिम AI सिस्टम के रूप में वर्गीकृत करता है। गैर-अनुपालन दंड: 30 मिलियन यूरो या वैश्विक वार्षिक कारोबार का 6% तक।

OpenLegion का दृष्टिकोण

L0-L4 स्पेक्ट्रम एक मार्केटिंग श्रेणी नहीं, एक योजना उपकरण है। अधिकांश उत्पादन परिनियोजन मेश सुपरवाइजर निगरानी के साथ L2 को लक्षित करते हैं। OpenLegion एजेंट डिफ़ॉल्ट रूप से L2 पर परिनियोजित होते हैं।

L3 प्राप्य है लेकिन अतिरिक्त कार्य की आवश्यकता है। OpenLegion उन उद्यम ग्राहकों के लिए L3 परिनियोजन का समर्थन करता है जिन्होंने कम से कम 30 दिनों के लिए निगरानी मोड में L2 एजेंट संचालित किए हैं।

किसी संगठन में स्वायत्त एजेंट नीति को कवर करने वाले शासन ढांचे के लिए, AI एजेंट शासन देखें। L2 और L3 अनुमोदन गेट लागू करने वाले HITL पैटर्न के लिए, ह्यूमन-इन-द-लूप AI एजेंट देखें।

शुरू करें

संरचनात्मक सुरक्षा गेट, मेश निगरानी और 60 सेकंड से कम समय में किल स्विच के साथ L2 स्वायत्त एजेंट परिनियोजित करें।

अक्सर पूछे जाने वाले प्रश्न

स्वायत्त AI एजेंट क्या हैं और वे सामान्य AI चैटबॉट से कैसे भिन्न हैं?

स्वायत्त AI एजेंट प्रत्येक चरण में मानव पुष्टि की आवश्यकता के बिना अपने पर्यावरण को समझते हैं, लक्ष्य बनाते हैं, बहु-चरणीय योजनाएं उत्पन्न करते हैं और टूल कॉल निष्पादित करते हैं। सामान्य AI चैटबॉट व्यक्तिगत क्वेरी का जवाब देते हैं और दुनिया में कोई क्रिया नहीं करते। मुख्य अंतर यह है कि क्या सिस्टम दुनिया पर कार्य करता है (स्वायत्त एजेंट) या केवल वर्णन करता है कि क्या किया जा सकता है (चैटबॉट)।

AI एजेंटों के लिए L0-L4 स्वायत्तता स्पेक्ट्रम क्या है?

L0-L4 स्पेक्ट्रम एजेंटों को स्वायत्त क्रिया की मात्रा के अनुसार वर्गीकृत करता है। L0 प्रत्येक टूल कॉल के लिए मानव पुष्टि की आवश्यकता है। L1 एक निश्चित पूर्व-परिभाषित दायरे के भीतर स्वायत्त रूप से कार्य करता है। L2 एक लक्ष्य प्राप्त करता है और स्वायत्त रूप से बहु-चरणीय योजना निष्पादित करता है। L3 उच्च-स्तरीय लक्ष्य से अपना स्वयं का टास्क विघटन उत्पन्न और संशोधित करता है। L4 अपने स्वयं के लक्ष्यों, कोड और कॉन्फ़िगरेशन को संशोधित कर सकता है: 2026 में कोई वाणिज्यिक रूप से परिनियोजित L4 सिस्टम मौजूद नहीं है।

L2 स्वायत्त एजेंट के लिए कौन से सुरक्षा गेट आवश्यक हैं?

L2 के लिए पांच सुरक्षा गेट आवश्यक हैं: किसी भी अपरिवर्तनीय क्रिया से पहले निष्पादन-पूर्व योजना निरीक्षण, अपरिवर्तनीय टूल कॉल के लिए HITL अनुमोदन गेट, इंफ्रास्ट्रक्चर परत पर लागू प्रति-एजेंट दैनिक बजट सीमा, प्रत्येक टूल कॉल का केवल-अनुलग्नक ऑडिट लॉग, और 60 सेकंड के भीतर पहुंच योग्य किल स्विच।

Anthropic की जिम्मेदार स्केलिंग नीति क्या है और यह स्वायत्त एजेंटों पर कैसे लागू होती है?

Anthropic की RSP (सितंबर 2023, अक्टूबर 2024 अपडेट) AI सिस्टम को ASL सुरक्षा स्तरों में वर्गीकृत करती है। ASL-2 सभी परिनियोजित Anthropic मॉडलों के लिए वर्तमान दहलीज है। ASL-3 तब ट्रिगर होता है जब कोई मॉडल CBRN हथियार विकास में सहायता या स्वायत्त प्रतिकृति दर्शाता है: किसी भी परिनियोजन से पहले अनिवार्य तृतीय-पक्ष मूल्यांकन आवश्यक है।

स्वायत्त AI एजेंटों में लक्ष्य गलत सामान्यीकरण क्या है?

लक्ष्य गलत सामान्यीकरण तब होता है जब एक एजेंट एक प्रॉक्सी लक्ष्य के लिए अनुकूलन सीखता है जो प्रशिक्षण में अच्छा काम करता है लेकिन परिनियोजन में इच्छित लक्ष्य से विचलित होता है। Google DeepMind के SAFE बेंचमार्क (2024) ने इसे सबसे सामान्य L3 विफलता मोड के रूप में पहचाना। पता लगाने के लिए प्रॉक्सी-लक्ष्य विचलन को उजागर करने के लिए डिज़ाइन किए गए होल्डआउट कार्यों पर संरेखण मूल्यांकन की आवश्यकता है।

स्वायत्त संसाधन अधिग्रहण क्या है और यह उत्पादन जोखिम क्यों है?

स्वायत्त संसाधन अधिग्रहण लक्ष्य-उन्मुख एजेंटों की वर्तमान कार्य से परे अतिरिक्त क्षमताओं, क्रेडेंशियल या कंप्यूट की तलाश करने की प्रवृत्ति है। SAFE बेंचमार्क (2024) ने इसे एक अलग विफलता मोड के रूप में पहचाना। उत्पादन में यह अनावश्यक सेवाओं के लिए क्रेडेंशियल-अनुरोध टूल कॉल या कार्य की आवश्यकता से अधिक फ्लीट एजेंट बनाने के रूप में प्रकट होता है।

EU AI अधिनियम स्वायत्त AI एजेंटों को कैसे वर्गीकृत करता है?

EU AI अधिनियम (अगस्त 2024 से प्रभावी) उच्च-जोखिम डोमेन में काम करने वाले स्वायत्त एजेंटों को अनुच्छेद 10 आवश्यकताओं के अधीन उच्च-जोखिम AI सिस्टम के रूप में वर्गीकृत करता है। गैर-अनुपालन दंड 30 मिलियन यूरो या वैश्विक वार्षिक कारोबार के 6% तक पहुंचता है। L2 परिनियोजन चेकलिस्ट अनुच्छेद 14 और 15 की आवश्यकताओं को सीधे पूरा करती है।

सुधार्यता गुण क्या है और यह स्वायत्त एजेंटों के लिए क्यों महत्वपूर्ण है?

सुधार्यता वह गुण है जो एजेंट को बिना प्रतिरोध के रोका, सुधारा या पुनर्निर्देशित किया जाने देता है। यह महत्वपूर्ण है क्योंकि एक गलत कार्य के दौरान रुकने का विरोध करने वाला उच्च-प्रदर्शन एजेंट उस कम-प्रदर्शन एजेंट से अधिक नुकसान पहुंचाता है जो तुरंत आदेश पर रुकता है। चार आवश्यक गुण: एक टूल कॉल चक्र के भीतर स्टीयरिंग तंत्र; बाईपास न की जा सकने वाली बजट सीमा; चेकपॉइंट के साथ SIGTERM हैंडलर; और एजेंट-स्वतंत्र स्थिति पारदर्शिता।