AI एजेंट मूल्यांकन: बेंचमार्क, मेट्रिक्स और परीक्षण

AI एजेंट मूल्यांकन यह व्यवस्थित रूप से मापने की प्रक्रिया है कि एजेंट कार्यों को सही ढंग से पूरा करते हैं, उपकरणों को सुरक्षित रूप से आमंत्रित करते हैं, और बहु-चरण निष्पादन ट्रेस में लागत और विलंब बजट के भीतर रहते हैं। भाषा मॉडल के लिए डिज़ाइन किए गए सिंगल-टर्न बेंचमार्क एजेंटिक सिस्टम में उभरने वाले संचयी विफलता पैटर्न को चूक जाते हैं: प्रति-चरण 90% सफलता दर पांच क्रमिक उपकरण कॉल में लगभग 59% तक घट जाती है।

AI एजेंट मूल्यांकन एक सॉफ्टवेयर परीक्षण अनुशासन है जो बेंचमार्क सूट, रिकॉर्ड किए गए ट्रेस रिप्ले और LLM-as-judge ग्रेडर का उपयोग करके कार्य-पूर्णता दर, उपकरण-कॉल सटीकता, ट्रेजेक्टरी लंबाई दक्षता, सुरक्षा-रेल पालन और पूर्ण किए गए कार्य प्रति लागत जैसे आयामों में स्वायत्त AI सिस्टम का आकलन करता है।

सिंगल-टर्न LLM बेंचमार्क एजेंट्स के लिए क्यों विफल होते हैं

बहु-चरण उपकरण श्रृंखलाओं में संचयी त्रुटि

MMLU जैसे सिंगल-टर्न बेंचमार्क पृथक प्रश्नों पर वन-शॉट सटीकता मापते हैं। एजेंट अलग तरह से काम करते हैं: प्रत्येक उपकरण कॉल पिछले परिणाम पर निर्भर करता है, और त्रुटियां फैलती हैं। प्रति-चरण 90% विश्वसनीयता पर, पांच-चरण उपकरण श्रृंखला केवल 59% समय बिना त्रुटि के पूरी होती है (0.9⁵ ≈ 0.59)। 80% पर, यह 33% तक गिर जाती है।

यह संचयी गतिशीलता का अर्थ है कि चरण-स्तर मेट्रिक्स पर स्वीकार्य दिखने वाला एजेंट एंड-टू-एंड उत्पादन में अविश्वसनीय हो सकता है। केवल सार्थक माप ट्रेजेक्टरी-स्तर कार्य पूर्णता है।

Task-Pass@k अनुकूलन

Pass@k को HumanEval (2021) में कोड जनरेशन मापने के लिए पेश किया गया था। एजेंट्स के लिए, वही सिद्धांत ट्रेजेक्टरी स्तर पर लागू होता है। कम pass@1 के साथ उच्च pass@3 एक विशिष्ट विफलता संकेत है: एजेंट कार्य हल कर सकता है लेकिन विश्वसनीय रूप से नहीं।

MMLU और HumanEval क्या चूक जाते हैं

MMLU तथ्यात्मक स्मृति का परीक्षण करता है। HumanEval पृथक रूप से फ़ंक्शन-स्तर कोड जनरेशन का परीक्षण करता है। न तो वास्तविक उपकरण आउटपुट के साथ बहु-चरण तर्क, अप्रत्याशित उपकरण परिणामों से त्रुटि पुनर्प्राप्ति, और लंबे ट्रेजेक्टरी पर लागत प्रबंधन का परीक्षण करता है।

OpenLegion का दृष्टिकोण: चार मूल्यांकन आयाम जो मायने रखते हैं

OWASP LLM08:2025 (अत्यधिक एजेंसी) एजेंट व्यवहार परीक्षण को अपर्याप्त पहचानता है जो एजेंटिक सिस्टम में अनपेक्षित दुष्प्रभावों का मूल कारण है।

openai/evals (18,604 GitHub स्टार, MIT-आसन्न) सबसे बड़ा ओपन-सोर्स LLM मूल्यांकन रजिस्ट्री है। यह मॉडल-स्तर मूल्यांकन कवर करता है, एजेंट-स्तर ट्रेजेक्टरी स्कोरिंग नहीं।

LLM-as-judge (MT-Bench 2023 द्वारा लोकप्रिय) जब न्यायाधीश और विषय मॉडल समान आधार भार साझा करते हैं तो 20% तक सकारात्मकता पूर्वाग्रह पेश करता है। विश्वसनीय मूल्यांकन परिणामों के लिए एक अलग मॉडल परिवार का न्यायाधीश के रूप में उपयोग करें।

उपकरण-कॉल सटीकता और दुष्प्रभाव ऑडिटिंग

मूल्यांकन रन के दौरान एजेंट द्वारा किए गए प्रत्येक उपकरण कॉल को रिकॉर्ड करें: उपकरण नाम, तर्क, रिटर्न मान, और डाउनस्ट्रीम क्रियाएं। स्वर्णिम ट्रेजेक्टरी से तुलना करें।

प्रति-कार्य लागत और विलंब बजट

एक एजेंट जो कार्यों को सही ढंग से पूरा करता है लेकिन 47 LLM कॉल में वह करता है जो एक अच्छी तरह से डिज़ाइन किए गए एजेंट 8 में करता है, वह उत्पादन-तैयार नहीं है। प्रति पूर्ण कार्य उपभोग किए गए टोकन और वॉल-क्लॉक समय मापें।

सुरक्षा मूल्यांकन: क्रेडेंशियल हैंडलिंग और इंजेक्शन प्रतिरोध

सुरक्षा मूल्यांकन अपने स्वयं के परीक्षण सूट के योग्य है। सत्यापित करें कि एजेंट उपकरण कॉल तर्कों में क्रेडेंशियल लॉग नहीं करता, प्रतिकूल उपकरण आउटपुट में एम्बेड किए गए निर्देशों का पालन नहीं करता, और अपने नामित कार्य क्षेत्र के बाहर अपरिवर्तनीय क्रियाएं नहीं करता।

AI एजेंट्स के लिए बेंचमार्क सूट

openai/evals: मॉडल-स्तर बेसलाइन (18,604 स्टार)

openai/evals (18,604 GitHub स्टार, MIT-आसन्न) LLM मूल्यांकन के लिए सबसे बड़ा खुला बेंचमार्क रजिस्ट्री है। मॉडल गुणवत्ता बेसलाइन के रूप में उपयोगी; बहु-चरण उपकरण उपयोग या एजेंटिक कार्य पूर्णता का परीक्षण नहीं करता।

trycua/cua: कंप्यूटर-उपयोग एजेंट बेंचमार्क (17,633 स्टार)

trycua/cua (17,633 GitHub स्टार, MIT) macOS, Linux, और Windows डेस्कटॉप नियंत्रित करने वाले कंप्यूटर-उपयोग एजेंट्स के मूल्यांकन के लिए सैंडबॉक्स वातावरण प्रदान करता है।

microsoft/promptflow: LLM ऐप गुणवत्ता मूल्यांकन नोड (11,142 स्टार)

microsoft/promptflow (11,142 GitHub स्टार, MIT) LLM एप्लिकेशन आउटपुट स्कोर करने के लिए अंतर्निहित मूल्यांकन नोड शामिल करता है: आधारभूतता, प्रासंगिकता, और प्रवाह।

IBM/AssetOpsBench: 460+ उद्योग-परिदृश्य MCP मूल्यांकन (1,704 स्टार)

IBM/AssetOpsBench (1,704 GitHub स्टार, Apache-2.0) Model Context Protocol पर काम करने वाले एजेंट्स के लिए 460 से अधिक उद्योग-परिदृश्य मूल्यांकन मामले प्रदान करता है।

मूल्यांकन विधियां

सटीक मिलान और प्रोग्रामेटिक ग्रेडर

सटीक मिलान ग्रेडर एजेंट आउटपुट को पूर्व-परिभाषित अपेक्षित मान से तुलना करते हैं। नियतत्ववादी, तेज़, और न्यायाधीश मॉडल पूर्वाग्रह से मुक्त।

LLM-as-judge: पूर्वाग्रह जोखिम और शमन

LLM-as-judge एक भाषा मॉडल का उपयोग एजेंट आउटपुट को एक रूब्रिक के विरुद्ध स्कोर करने के लिए करता है। पूर्वाग्रह जोखिम मात्रात्मक है: जब न्यायाधीश और विषय मॉडल समान आधार भार साझा करते हैं तो 20% तक सकारात्मकता पूर्वाग्रह स्कोर को फुलाता है।

शमन: एक अलग प्रदाता से न्यायाधीश मॉडल उपयोग करें; ठोस पास/फेल मानदंड के साथ स्पष्ट स्कोरिंग रूब्रिक प्रदान करें; मानव-लेबल उदाहरणों के छोटे सेट के विरुद्ध न्यायाधीश स्कोर कैलिब्रेट करें।

ट्रेजेक्टरी स्कोरिंग और चरण-स्तर सटीकता

ट्रेजेक्टरी स्कोरिंग एजेंट द्वारा कार्य पूरा करने के लिए की गई कार्यों की पूरी अनुक्रम का मूल्यांकन करता है। चरण-स्तर मेट्रिक्स: उपकरण चयन सटीकता, तर्क सटीकता, ट्रेजेक्टरी दक्षता, त्रुटि पुनर्प्राप्ति, समाप्ति सटीकता।

प्रतिकूल इनपुट हार्नेस

प्रतिकूल मूल्यांकन असुरक्षित या गलत व्यवहार ट्रिगर करने के लिए डिज़ाइन किए गए इनपुट के तहत एजेंट व्यवहार का परीक्षण करते हैं: उपकरण आउटपुट के माध्यम से प्रॉम्प्ट इंजेक्शन, विकृत उपकरण प्रतिक्रियाएं, क्षेत्र सीमा परीक्षण, क्रेडेंशियल एक्सपोज़र जांच।

एजेंट मूल्यांकन पाइपलाइन बनाना

एजेंटिक कार्यों के लिए मूल्यांकन डेटासेट डिज़ाइन

एक अच्छे एजेंट मूल्यांकन डेटासेट में शामिल हैं: कार्य इनपुट, अपेक्षित उपकरण कॉल अनुक्रम, सफलता मानदंड, और मेटाडेटा। मुख्य उपयोग मामलों को कवर करने वाले 50-100 कार्यों से शुरू करें।

ट्रेस रिप्ले और रिग्रेशन परीक्षण

ट्रेस रिप्ले एजेंट के विरुद्ध मूल्यांकन डेटासेट चलाता है, पूर्ण निष्पादन ट्रेस कैप्चर करता है, और स्वर्णिम ट्रेस से तुलना करता है। रिग्रेशन परीक्षण तब ध्वजांकित करता है जब पिछले संस्करण में पास हुई कोई कार्य वर्तमान में विफल हो।

CI एकीकरण: मूल्यांकन रिग्रेशन पर डिप्लॉयमेंट ब्लॉक करना

गुणवत्ता पतन होने पर डिप्लॉयमेंट ब्लॉक करने के लिए एजेंट मूल्यांकन को CI पाइपलाइन में एकीकृत करें। यदि कार्य-पूर्णता दर 5% से अधिक गिरती है या कोई सुरक्षा मूल्यांकन परीक्षण मामला पास से विफल पर वापस आता है तो डिप्लॉयमेंट ब्लॉक करें।

मूल्यांकन उपकरण तुलना

आयाम	openai/evals	trycua/cua	promptflow eval	IBM/AssetOpsBench
मूल्यांकन क्षेत्र	सिंगल-टर्न LLM	कंप्यूटर-उपयोग डेस्कटॉप	LLM ऐप गुणवत्ता	मल्टी-रोल MCP एजेंट
ग्रेडिंग विधि	सटीक मिलान, LLM-न्यायाधीश	वातावरण निष्पादन	LLM-न्यायाधीश नोड	प्रोग्रामेटिक + LLM-न्यायाधीश
एजेंट ट्रेजेक्टरी समर्थन	नहीं	हां (पूर्ण डेस्कटॉप सत्र)	आंशिक (फ्लो-स्तर)	हां (4-रोल वर्कफ़्लो)
सुरक्षा परीक्षण	नहीं	नहीं	नहीं	आंशिक
CI एकीकरण	CLI के माध्यम से	SDK के माध्यम से	PromptFlow में नेटिव	मैनुअल
लाइसेंस	MIT-आसन्न	MIT	MIT	Apache-2.0
GitHub स्टार	18,604	17,633	11,142	1,704

अक्सर पूछे जाने वाले प्रश्न

AI एजेंट मूल्यांकन क्या है?

AI एजेंट मूल्यांकन मापता है कि एजेंट बहु-चरण कार्यों को सही ढंग से पूरा करते हैं, सही तर्कों के साथ उपकरण आमंत्रित करते हैं, लागत और विलंब बजट के भीतर रहते हैं, और क्रेडेंशियल एक्सफिल्ट्रेशन या प्रॉम्प्ट इंजेक्शन जैसे असुरक्षित व्यवहारों से बचते हैं।

AI एजेंट्स के मूल्यांकन के लिए कौन से बेंचमार्क उपयोग किए जाते हैं?

सामान्य फ्रेमवर्क में शामिल हैं openai/evals (18,604 GitHub स्टार, मॉडल-स्तर), trycua/cua (17,633 GitHub स्टार, MIT, कंप्यूटर-उपयोग डेस्कटॉप कार्य), microsoft/promptflow मूल्यांकन नोड (11,142 GitHub स्टार, MIT, LLM ऐप गुणवत्ता), और IBM/AssetOpsBench (1,704 GitHub स्टार, Apache-2.0, 460+ उद्योग MCP परिदृश्य)।

LLM-as-judge मूल्यांकन क्या है और इसके जोखिम क्या हैं?

LLM-as-judge एक रूब्रिक के विरुद्ध एजेंट आउटपुट स्कोर करने के लिए एक अलग भाषा मॉडल का उपयोग करता है। मुख्य जोखिम: जब न्यायाधीश और विषय मॉडल समान आधार भार साझा करते हैं तो 20% तक सकारात्मकता पूर्वाग्रह स्कोर को फुलाता है। विश्वसनीय परिणामों के लिए एक अलग मॉडल परिवार का न्यायाधीश के रूप में उपयोग करें।

एजेंट मूल्यांकन के लिए pass@k कैसे काम करता है?

Pass@k मापता है कि k स्वतंत्र एजेंट रन में से कम से कम एक कार्य को सही ढंग से पूरा करता है। कम pass@1 के साथ उच्च pass@3 गैर-नियतत्ववादी निष्पादन को संकेत देता है जो प्रोडक्शन डिप्लॉयमेंट से पहले जांच के योग्य है।

एजेंट सुरक्षा और क्रेडेंशियल हैंडलिंग का मूल्यांकन कैसे करें?

सुरक्षा मूल्यांकन परीक्षण करता है कि एजेंट उपकरण कॉल तर्कों में क्रेडेंशियल लीक करता है या नहीं, उपकरण आउटपुट में प्रतिकूल प्रॉम्प्ट इंजेक्शन पर प्रतिक्रिया देता है या नहीं, या क्षेत्र के बाहर अपरिवर्तनीय दुष्प्रभाव पैदा करता है या नहीं। OWASP LLM08:2025 (अत्यधिक एजेंसी) इस विफलता पैटर्न को शीर्ष-10 LLM भेद्यता के रूप में दस्तावेज़ करता है।

CI/CD में एजेंट मूल्यांकन कैसे एकीकृत करें?

कार्य इनपुट, अपेक्षित उपकरण कॉल अनुक्रम, और अंतिम आउटपुट के साथ एक स्वर्णिम मूल्यांकन डेटासेट रिकॉर्ड करें। प्रत्येक कमिट पर, अपडेट किए गए एजेंट के विरुद्ध डेटासेट रिप्ले करें और पिछली बेसलाइन से ट्रेजेक्टरी स्कोर तुलना करें। यदि कार्य-पूर्णता दर 5% से अधिक गिरती है या कोई सुरक्षा परीक्षण रिग्रेस होता है तो डिप्लॉयमेंट ब्लॉक करें।

OpenLegion एजेंट मूल्यांकन का समर्थन कैसे करता है?

OpenLegion का एजेंट मेश संरचित उपकरण-कॉल ट्रेस उत्सर्जित करता है जो मूल्यांकन हार्नेस के विरुद्ध रिप्ले किए जा सकते हैं। क्रेडेंशियल वॉल्ट सुनिश्चित करता है कि मूल्यांकन रन पृथक क्रेडेंशियल का उपयोग करें। हार्टबीट-संचालित मूल्यांकन एजेंट शेड्यूल पर रिग्रेशन सूट चला सकते हैं।

सुरक्षित मेश में अपने एजेंट का मूल्यांकन करें

विश्वसनीय एजेंट्स को मूल्यांकन अवसंरचना की आवश्यकता है जो पूर्ण निष्पादन ट्रेजेक्टरी का परीक्षण करे। संचयी त्रुटि समस्या वास्तविक है: 90% प्रति-चरण विश्वसनीयता दर का अर्थ है कि पांच-चरण एजेंट 41% रन में विफल होता है।

OpenLegion पर मूल्यांकित एजेंट बनाना शुरू करें