تقييم وكلاء الذكاء الاصطناعي: المعايير والمقاييس والاختبارات
تقييم وكلاء الذكاء الاصطناعي هو ممارسة قياس ما إذا كان الوكلاء يكملون المهام بشكل صحيح، ويستدعون الأدوات بأمان، ويبقون ضمن ميزانيات التكلفة والكمون عبر آثار التنفيذ متعددة الخطوات، وليس فقط في استدعاء LLM واحد. معايير الدورة الواحدة المصممة لنماذج اللغة تفوتها أنماط الفشل التراكمي التي تظهر في الأنظمة الوكيلية: معدل نجاح 90% لكل خطوة يتدهور إلى حوالي 59% عبر خمسة استدعاءات أدوات متسلسلة.
تقييم وكلاء الذكاء الاصطناعي هو تخصص اختبار برمجيات يقيّم الأنظمة الذكية المستقلة عبر أبعاد تشمل معدل إكمال المهام، وصحة استدعاءات الأدوات، وكفاءة طول المسار، والالتزام بضمانات السلامة، والتكلفة لكل مهمة مكتملة، باستخدام مجموعات المعايير، وإعادة تشغيل الآثار المسجلة، ومقيّمي LLM-as-judge.
لماذا تفشل معايير LLM ذات الدورة الواحدة مع الوكلاء
الخطأ التراكمي في سلاسل الأدوات متعددة الخطوات
معايير الدورة الواحدة مثل MMLU تقيس الدقة في محاولة واحدة على أسئلة معزولة. الوكلاء يعملون بشكل مختلف: كل استدعاء أداة يعتمد على النتيجة السابقة، والأخطاء تتكاثر. بموثوقية 90% لكل خطوة، تكتمل سلسلة أدوات من خمس خطوات بدون أخطاء بنسبة 59% فقط (0.9⁵ ≈ 0.59). بموثوقية 80%، تنخفض إلى 33%.
هذه الديناميكية التراكمية تعني أن وكيلاً يبدو مقبولاً على مقاييس مستوى الخطوة قد يكون غير موثوق في الإنتاج من طرف إلى طرف. القياس الوحيد ذو المعنى هو إكمال المهمة على مستوى المسار.
تكييف Task-Pass@k
تم تقديم pass@k في HumanEval (2021) لقياس توليد الكود. بالنسبة للوكلاء، ينطبق نفس المبدأ على مستوى المسار. pass@1 المنخفض مع pass@3 العالي هو إشارة فشل محددة: الوكيل يستطيع حل المهمة لكن ليس بشكل موثوق.
ما تفوته MMLU وHumanEval
MMLU يختبر الاسترجاع الحقيقي. HumanEval يختبر توليد الكود على مستوى الوظيفة في عزلة. لا يختبر أيٌّ منهما ما تفعله وكلاء الإنتاج فعلياً: التفكير متعدد الخطوات مع مخرجات أدوات حقيقية، واسترداد الأخطاء، وإدارة التكاليف عبر مسارات طويلة.
رأي OpenLegion: الأبعاد الأربعة للتقييم التي تهم
OWASP LLM08:2025 (الوكالة المفرطة) تحدد اختبار سلوك الوكيل غير الكافي كسبب جذري للتأثيرات الجانبية غير المقصودة في الأنظمة الوكيلية.
openai/evals (18,604 نجمة GitHub، قريب من MIT) هو أكبر سجل مفتوح المصدر لمعايير LLM. يغطي التقييم على مستوى النموذج، وليس تسجيل المسار على مستوى الوكيل.
LLM-as-judge (تعمم عبر MT-Bench 2023) يُدخل تحيزاً إيجابياً بنسبة تصل إلى 20% عندما يشترك نموذج الحكم والنموذج الخاضع في نفس الأوزان الأساسية. استخدم عائلة نماذج مختلفة كحكم للحصول على نتائج تقييم موثوقة.
صحة استدعاءات الأدوات ومراجعة الآثار الجانبية
سجّل كل استدعاء أداة يجريه الوكيل أثناء تشغيلات التقييم: اسم الأداة، والمعطيات، وقيمة الإرجاع، والإجراءات اللاحقة. قارن مع المسار الذهبي.
التكلفة لكل مهمة وميزانيات الكمون
وكيل يكمل المهام بشكل صحيح لكنه يحتاج إلى 47 استدعاء LLM للقيام بما يفعله وكيل مُصمَّم جيداً في 8 ليس جاهزاً للإنتاج. قس الرموز المستهلكة ووقت الساعة الحائطية لكل مهمة مكتملة.
تقييم الأمان: معالجة بيانات الاعتماد ومقاومة الحقن
يستحق تقييم الأمان مجموعة اختباراته الخاصة. تحقق أن الوكيل لا يسجّل بيانات الاعتماد في معطيات استدعاءات الأدوات، ولا يتبع التعليمات المضمنة في مخرجات الأدوات العدائية، ولا يتخذ إجراءات لا رجعة فيها خارج نطاق مهمته المحددة.
مجموعات معايير وكلاء الذكاء الاصطناعي
openai/evals: خط الأساس على مستوى النموذج (18,604 نجمة)
openai/evals (18,604 نجمة GitHub، قريب من MIT) هو أكبر سجل مفتوح للمعايير لتقييم LLM. مفيد كخط أساس لجودة النموذج، لكنه لا يختبر استخدام الأدوات متعددة الخطوات أو إكمال المهام الوكيلية.
trycua/cua: معايير وكلاء استخدام الحاسوب (17,633 نجمة)
trycua/cua (17,633 نجمة GitHub، MIT) يوفر بيئات محاكاة لتقييم وكلاء استخدام الحاسوب الذين يتحكمون في أجهزة سطح المكتب macOS وLinux وWindows. معايير CUA من بين الأكثر تحدياً في مشهد التقييم مفتوح المصدر.
microsoft/promptflow: عقد تقييم جودة تطبيق LLM (11,142 نجمة)
microsoft/promptflow (11,142 نجمة GitHub، MIT) يتضمن عقد تقييم مدمجة لتسجيل مخرجات تطبيقات LLM: الأرضية، والصلة، والطلاقة.
IBM/AssetOpsBench: أكثر من 460 تقييم MCP لسيناريوهات الصناعة (1,704 نجمة)
IBM/AssetOpsBench (1,704 نجمة GitHub، Apache-2.0) يوفر أكثر من 460 حالة تقييم لسيناريوهات صناعية للوكلاء العاملين على Model Context Protocol.
طرق التقييم
المطابقة الدقيقة والمقيّمون البرمجيون
مقيّمو المطابقة الدقيقة يقارنون مخرجات الوكيل مع قيمة متوقعة محددة مسبقاً. حتمية وسريعة وخالية من تحيز نموذج الحكم.
LLM-as-judge: مخاطر التحيز والتخفيف
LLM-as-judge يستخدم نموذج لغة لتسجيل مخرجات الوكلاء مقابل معيار. تم تحديد مخاطر التحيز: تحيز إيجابي يصل إلى 20% يُضخّم درجات التقييم عندما يشترك الحكم والموضوع في نفس الأوزان الأساسية.
التخفيف: استخدام نموذج حكم من مزود مختلف، وتوفير معايير تسجيل صريحة مع معايير نجاح/فشل ملموسة، ومعايرة درجات الحكم مقابل مجموعة صغيرة من الأمثلة المُصنَّفة بشرياً.
تسجيل المسار وصحة مستوى الخطوة
يقيّم تسجيل المسار التسلسل الكامل للإجراءات التي اتخذها الوكيل لإكمال مهمة. مقاييس مستوى الخطوة: دقة اختيار الأداة، وصحة المعطيات، وكفاءة المسار، واسترداد الأخطاء، ودقة الإنهاء.
أطر الإدخال العدائية
التقييمات العدائية تختبر سلوك الوكيل تحت مدخلات مصممة لإثارة سلوك غير آمن أو غير صحيح: حقن التلقين عبر مخرجات الأدوات، واستجابات الأدوات المشوهة، واستكشاف حدود النطاق، ومسابر كشف بيانات الاعتماد.
بناء خط أنابيب تقييم الوكيل
تصميم مجموعة بيانات التقييم للمهام الوكيلية
مجموعة بيانات تقييم وكيل جيدة تحتوي على: مدخلات المهام، وتسلسل استدعاء الأدوات المتوقع، ومعايير النجاح، والبيانات الوصفية. ابدأ بـ 50-100 مهمة تغطي حالات الاستخدام الرئيسية.
إعادة تشغيل الآثار واختبار الانحدار
إعادة تشغيل الآثار تُشغّل مجموعة بيانات التقييم على الوكيل، وتلتقط آثار التنفيذ الكاملة، وتقارن مع الآثار الذهبية. اختبار الانحدار يُعلّم عندما تفشل مهمة نجحت في إصدار سابق في الإصدار الحالي.
تكامل CI: حجب النشرات عند انحدار التقييم
ادمج تقييم الوكيل في خط أنابيب CI لحجب النشرات عند انحدار الجودة. احجب النشر إذا انخفض معدل إكمال المهمة بأكثر من 5% من القيمة المطلقة أو إذا انحدر أي حالة اختبار أمان من النجاح إلى الفشل.
مقارنة أدوات التقييم
| البُعد | openai/evals | trycua/cua | promptflow eval | IBM/AssetOpsBench |
|---|---|---|---|---|
| نطاق التقييم | LLM دورة واحدة | سطح مكتب استخدام الحاسوب | جودة تطبيق LLM | وكلاء MCP متعددو الأدوار |
| طريقة التسجيل | مطابقة دقيقة، حكم LLM | تنفيذ البيئة | عقد حكم LLM | برمجي + حكم LLM |
| دعم مسار الوكيل | لا | نعم (جلسات سطح مكتب كاملة) | جزئي (مستوى التدفق) | نعم (سير عمل 4 أدوار) |
| اختبار الأمان | لا | لا | لا | جزئي |
| تكامل CI | عبر CLI | عبر SDK | أصلي في PromptFlow | يدوي |
| الترخيص | قريب من MIT | MIT | MIT | Apache-2.0 |
| نجوم GitHub | 18,604 | 17,633 | 11,142 | 1,704 |
الأسئلة الشائعة
ما هو تقييم وكلاء الذكاء الاصطناعي؟
تقييم وكلاء الذكاء الاصطناعي يقيس ما إذا كان الوكلاء يكملون المهام متعددة الخطوات بشكل صحيح، ويستدعون الأدوات بالمعطيات الصحيحة، ويبقون ضمن ميزانيات التكلفة والكمون، ويتجنبون السلوكيات غير الآمنة كتسريب بيانات الاعتماد أو حقن التلقين.
ما المعايير المستخدمة لتقييم وكلاء الذكاء الاصطناعي؟
تشمل الأطر الشائعة openai/evals (18,604 نجمة GitHub، مستوى النموذج)، وtrycua/cua (17,633 نجمة GitHub، MIT، مهام سطح مكتب استخدام الحاسوب)، وعقد تقييم microsoft/promptflow (11,142 نجمة GitHub، MIT، جودة تطبيق LLM)، وIBM/AssetOpsBench (1,704 نجمة GitHub، Apache-2.0، أكثر من 460 سيناريو MCP صناعياً).
ما هو تقييم LLM-as-judge وما مخاطره؟
LLM-as-judge يستخدم نموذج لغة منفصلاً لتسجيل مخرجات الوكيل مقابل معيار. الخطر الرئيسي: تحيز إيجابي يصل إلى 20% يُضخّم الدرجات عندما يشترك الحكم والموضوع في نفس الأوزان الأساسية. استخدم عائلة نماذج مختلفة كحكم للحصول على نتائج موثوقة.
كيف يعمل pass@k لتقييم الوكيل؟
Pass@k يقيس احتمالية أن تُكمل واحدة على الأقل من k تشغيلات وكيل مستقلة مهمة بشكل صحيح. pass@1 المنخفض مع pass@3 العالي يُشير إلى تنفيذ غير حتمي يستحق التحقيق قبل النشر في الإنتاج.
كيف تُقيّم أمان الوكيل ومعالجة بيانات الاعتماد؟
تقييمات الأمان تختبر ما إذا كان الوكلاء يُسرّبون بيانات الاعتماد في معطيات استدعاءات الأدوات، ويستجيبون لحقن التلقين العدائي في مخرجات الأدوات، أو يُسببون آثاراً جانبية لا رجعة فيها خارج نطاقهم. OWASP LLM08:2025 (الوكالة المفرطة) يوثق هذا النمط من الفشل كثغرة ضمن أعلى 10 ثغرات LLM.
كيف تدمج تقييم الوكيل في CI/CD؟
سجّل مجموعة بيانات تقييم ذهبية مع مدخلات المهام، وتسلسلات استدعاء الأدوات المتوقعة، والمخرجات النهائية. في كل إيداع، أعد تشغيل مجموعة البيانات على الوكيل المحدّث وقارن درجات المسار مع خط الأساس السابق. احجب النشرات إذا انخفض معدل إكمال المهمة بأكثر من 5% أو انحدر أي اختبار أمان.
كيف يدعم OpenLegion تقييم الوكيل؟
تُصدر شبكة وكلاء OpenLegion آثار استدعاء أدوات منظمة يمكن إعادة تشغيلها على إطار تقييم. يضمن مخزن بيانات الاعتماد أن تشغيلات التقييم تستخدم بيانات اعتماد معزولة. يمكن لوكلاء التقييم المدفوعين بالنبضات تشغيل مجموعات الانحدار وفق جدول زمني.
قيّم وكلاءك في شبكة آمنة
الوكلاء الموثوقون يحتاجون إلى بنية تحتية للتقييم تختبر مسار التنفيذ الكامل. مشكلة الخطأ التراكمي حقيقية: معدل موثوقية 90% لكل خطوة يعني أن وكيل خمس خطوات يفشل في 41% من التشغيلات.