أنماط تصميم الذكاء الاصطناعي الوكيل: ReAct وPlan-and-Execute وReflexion والمزيد

أنماط تصميم الذكاء الاصطناعي الوكيل هي حلول معمارية مسماة وقابلة لإعادة الاستخدام للمشكلات المتكررة في تنسيق الوكلاء، كل منها له بنية محددة ومقايضات معروفة وأوضاع فشل مميزة وتداعيات أمنية. اختيار النمط الخاطئ يؤدي إلى فشل محدد: ReAct في المهام طويلة المدى يسبب تخبطاً في نافذة السياق؛ Plan-and-Execute بدون إعادة تخطيط يراكم الأخطاء على الخطط القديمة؛ Reflexion بدون تعقيم الذاكرة يتيح تسميم الذاكرة المستمر. ستة أنماط في فئتين: أنماط التفكير أحادي الوكيل (ReAct وPlan-and-Execute وReflexion) وأنماط التنسيق متعدد الوكلاء (Critic-Actor وSupervisor-Worker وMixture-of-Agents).

أنماط تصميم الذكاء الاصطناعي الوكيل هي حلول معمارية مسماة وقابلة لإعادة الاستخدام للمشكلات المتكررة في تصميم أنظمة الوكلاء، تحدد كيفية تفكير الوكيل وتخطيطه وتأمله وتفويضه واستعادته من الفشل، كل منها له بنية محددة ومقايضات معروفة وأوضاع فشل مميزة وتداعيات أمنية يجب على الممارسين مراعاتها قبل النشر في الإنتاج.

كيفية قراءة هذا الدليل: بنية الأنماط وإرشادات الاختيار

مكونات الأنماط: البنية والمقايضات وأوضاع الفشل وبوابات الأمان

كل نمط في هذا الدليل موصوف بأربعة مكونات:

البنية: الترتيب المعماري بالنص الوصفي، أي الوكلاء أو نماذج المحاكاة الموجودة، وكيف تتواصل، وكيف يبدو تدفق البيانات، وما هو العنصر الرئيسي.

المقايضات: ما يحسّنه النمط مقابل ما يضحي به. ReAct يحسّن تأسيس أدوات الحقيقة الجوهرية لكنه يضحي بكفاءة نافذة السياق.

أوضاع الفشل: الطرق المحددة التي يفشل بها كل نمط في الإنتاج والتي لا تكون واضحة من نتائج المعايير الأكاديمية.

بوابات الأمان: الضوابط المحددة المطلوبة لمنع وضع فشل الأمان المميز لكل نمط.

إرشادات اختيار النمط: مدة المهمة x قابلية الإرجاع x مستوى الاستقلالية

ثلاثة محاور تحدد النمط المناسب للبدء به:

مدة المهمة: المهام القصيرة (حتى 5 استدعاءات أدوات) -- ReAct. المهام متوسطة الأفق (6-20 خطوة) -- Plan-and-Execute. المهام الطويلة أو المفتوحة (أكثر من 20 خطوة) -- Reflexion أو Supervisor-Worker.

قابلية الإرجاع: إذا كانت جميع الإجراءات قابلة للإرجاع، فأي نمط ينطبق. إذا كانت بعض الإجراءات غير قابلة للإرجاع (حذف الملفات، إرسال البريد الإلكتروني، الكتابة في قاعدة البيانات)، أضف بوابة Critic-Actor قبل تلك الإجراءات المحددة.

مستوى الاستقلالية: L1-L2 -- ReAct أو Plan-and-Execute. L3 -- Reflexion أو Supervisor-Worker مع احتواء نطاق الضرر لكل دور. L4 -- لا يُنشر في الإنتاج بدون بنية تحتية أمنية مصلّبة.

ReAct: التفكير والتصرف المتشابكان

البنية: حلقة الفكر -> الإجراء -> الملاحظة

ReAct (Reasoning + Acting)، ياو وآخرون من Google Brain وPrinceton (arXiv أكتوبر 2022، ICLR 2023)، يتشابك فيه التفكير بالسلسلة مع استدعاءات الأدوات في لوحة ملاحظات لنافذة سياق واحدة. الحلقة:

Thought: [تفكير بالسلسلة مستند إلى الملاحظة السابقة]
Action: [استدعاء أداة -- اسم الدالة والمعلمات]
Observation: [نتيجة الأداة المعادة من التنفيذ]
[تكرار حتى:]
Thought: لدي معلومات كافية للإجابة.
Action: Finish[الإجابة النهائية]

نتائج المعايير من الورقة الأصلية: HotpotQA -- 57.1% تطابق دقيق مع ReAct مقابل 43.2% لسلسلة التفكير وحدها (+14 نقطة). FEVER -- 75.4% مقابل 66.4% (+9 نقاط).

المقايضات: الحقيقة الجوهرية مقابل نمو نافذة السياق

الميزة الرئيسية لـ ReAct هي التفكير المستند إلى الملاحظات. التكلفة هي نمو نافذة السياق. في مهمة بـ 20 استدعاء أداة بمتوسط 200 رمز لكل ثلاثي، تستهلك لوحة الملاحظات وحدها 4,000 رمز.

وضع الفشل: حقن لوحة الملاحظات

يستهدف وضع فشل الأمان في ReAct لوحة الملاحظات مباشرة. إذا احتوت أي ملاحظة أداة على محتوى عدائي، يُضاف ذلك المحتوى حرفياً إلى لوحة الملاحظات.

ثلاثة تدابير مخففة مطلوبة معاً:

تعقيم كل ملاحظة قبل إضافتها إلى لوحة الملاحظات
تسجيل كل إجراء مسبقاً في Zone 2 قبل التوزيع
التعامل مع كل ملاحظة أداة كمدخل غير موثوق

Plan-and-Execute: فصل التخطيط عن التنفيذ

البنية: المُخطط يُنشئ تحليلاً كاملاً للمهام قبل أي تنفيذ

Plan-and-Execute يفصل بين اهتمامين يتشابك فيهما ReAct: وكيل مُخطط يتلقى الهدف ويُنشئ تحليلاً كاملاً للمهام قبل بدء أي تنفيذ.

كفاءة نافذة السياق: الخطة مضغوطة (50-150 رمزاً لمعظم المهام). في المهام طويلة الأفق، تُنتج تخفيضاً بنسبة 40-60% في نافذة السياق مقارنة بـ ReAct.

المقايضات: الكفاءة مقابل قِدَم الخطة

وضع الفشل الرئيسي هو قِدَم الخطة. الخطة تُنشأ عند T=0. إذا تغيرت البيئة أثناء التنفيذ، قد تستند الخطوات المتبقية إلى شروط مسبقة غير صالحة.

بوابة الأمان: فحص الخطة قبل التوزيع

الخطة عنصر منفصل متاح قبل أي استدعاء أداة. فحص السياسة الآلي قبل التنفيذ: تحليل الخطة بحثاً عن أنواع الإجراءات المحظورة، التحقق من أن كل اسم أداة يظهر في قائمة الإجراءات المسموح بها للوكيل.

Reflexion: التعلم من الفشل عبر التعزيز اللفظي

البنية: التأمل -> التخزين -> تهيئة المحاولة التالية

Reflexion، شين وآخرون من Northeastern وMIT وPrinceton (arXiv مارس 2023، NeurIPS 2023)، نمط تعلم تعزيزي لفظي: بعد فشل محاولة مهمة، يُولّد الوكيل تأملاً باللغة الطبيعية، يُخزّنه في مخزن ذاكرة حلقي، ويهيئ المحاولة التالية بناءً على التأمل المسترجع.

نتائج المعايير: HumanEval البرمجة pass@1 -- 91% مع Reflexion مقابل 80% (+11 نقطة). ALFWorld -- 97% مقابل 73% (+24 نقطة).

مخاطر الأمان: تسميم الذاكرة الحلقية

وضع فشل أمان Reflexion مختلف وأكثر ديمومة من مخاطر حقن لوحة الملاحظات في ReAct. إذا احتوت الملاحظة على محتوى عدائي، يمكن للتأمل المُولَّد أن يُشفّر إرشادات يتحكم فيها المهاجم إلى أجل غير مسمى.

أربعة تدابير مخففة مطلوبة بالتتابع: تعقيم التأمل قبل التخزين؛ التخزين المُصدَّر إلى السبورة مع إسناد agent_id؛ TTL للتأمل؛ بوابة مراجعة HITL للتأملات التي تقترح تغييرات سلوكية تصنيفية.

Critic-Actor: فصل التقييم عن التنفيذ

البنية: المُنفّذ يقترح، الناقد يعترض قبل التنفيذ

نمط Critic-Actor، المشتق من RLHF وConstitutional AI (Anthropic, 2022)، يفصل توليد الإجراءات عن تقييمها. نموذج Actor يقترح إجراءً؛ نموذج Critic يُقيّم الإجراء المقترح مقابل سياسة؛ الإجراءات التي تجتاز تقييم الناقد فقط هي التي تصل إلى طبقة استدعاء الأدوات.

تفصيل التنفيذ الحرج: يجب أن يمتلك الناقد نافذة سياق مستقلة عن المُنفّذ. الناقد ضمن السياق ذاته يشارك السياق الكامل للمُنفّذ.

متى يُستخدم Critic-Actor: عتبة اللارجعة

Critic-Actor يضيف زمن استجابة وهو مطلوب عندما تتجاوز الإجراءات عتبة اللارجعة: حذف الملفات، إرسال البريد الإلكتروني، الكتابة في قاعدة البيانات، استدعاءات POST لواجهات API الخارجية.

Supervisor-Worker: التنسيق متعدد الوكلاء القائم على الأدوار

البنية: المشرف يُحلّل، العمال يُنفّذون ضمن نطاق الدور

Supervisor-Worker يتضمن وكيل مشرف يتلقى هدفاً ويحلّله إلى مهام ويوزّع كل مهمة على وكيل عامل متخصص ذو دور محدد ومجموعة أدوات مقيّدة:

ResearchWorker: أدوات = web_search، read_file، read_url
CodeWorker: أدوات = run_command، write_file، read_file
CommWorker: أدوات = send_email، post_message

خاصية الأمان: احتواء نطاق الضرر للعمال المخترقين

الخاصية الأمنية الرئيسية لـ Supervisor-Worker هي احتواء نطاق الضرر: العامل المخترق لا يمكنه استدعاء إلا الأدوات ضمن دوره المحدد. ResearchWorker الذي يتلقى تعليمات محقونة لاستدعاء send_email() سيفشل عند فحص صلاحيات Zone 2.

Mixture-of-Agents: الاستدلال المجمّع عبر نسخ النماذج

البنية: التجميع متعدد الطبقات لمخرجات النماذج

Mixture-of-Agents (MoA)، وانغ وآخرون من Together AI (arXiv يونيو 2024)، يُجمّع مخرجات نسخ LLM متعددة عبر طبقات تنقية تكرارية. المعيار على AlpacaEval 2.0: 65.1% معدل فوز مع MoA ثلاثي الطبقات مقابل 57.5% لـ GPT-4o -- تحسين جودة بمقدار 7.6 نقطة.

المقايضات: الجودة مقابل مضاعفة تكاليف API

MoA بـ 3 نماذج × 3 طبقات يتطلب حوالي 12 استدعاء LLM لكل طلب مستخدم مقابل 1 لنموذج واحد -- زيادة تكاليف API بحوالي 12 ضعفاً. MoA غير مناسب للحلقات الوكيلية عالية التردد والحساسة للزمن.

رأي OpenLegion: أمان الأنماط هو بنية تحتية وليس هندسة تعليمات

كل نمط تصميم وكيلي في هذا الدليل له وضع فشل أمني لم تغطِه الورقة الأكاديمية الأصلية. أوضاع الفشل الأمني الخاصة بالأنماط:

حقن لوحة ملاحظات ReAct: محتوى الملاحظة العدائي يُحقن خطوات Thought
حقن خطة Plan-and-Execute: عنصر الخطة يمكن تعديله بين المُخطط والمُنفّذ
تسميم ذاكرة Reflexion: التأمل المسموم يستمر في المخزن الحلقي عبر الجلسات
تجاوز الناقد ضمن السياق ذاته: حقن سياق المُنفّذ يُفسد أيضاً تقييم الناقد
اختراق المشرف: المشرف المخترق يمكنه توزيع مهام عشوائية على جميع العمال

ضابط الأمان	OpenLegion	LangChain / LangGraph	CrewAI	AutoGen	OpenAI Agents SDK
تسجيل الإجراءات قبل التنفيذ	Zone 2، أصلي	اتفاقية المطور	اتفاقية المطور	اتفاقية المطور	اتفاقية المطور
قائمة التحكم بالوصول للخطة في السبورة	مُطبَّق بالبنية التحتية	غير متاح	غير متاح	غير متاح	غير متاح
ذاكرة حلقية مُصدَّرة مع إسناد agent_id	أصلي	اتفاقية المطور	اتفاقية المطور	اتفاقية المطور	اتفاقية المطور
نموذج ناقد منفصل بسياق مستقل	عزل وكيل أصلي	إعداد يدوي	إعداد يدوي	إعداد يدوي	إعداد يدوي
تطبيق صلاحيات الأدوات Zone 2 لكل عامل	مُطبَّق بالبنية التحتية	اتفاقية المطور	اتفاقية المطور	اتفاقية المطور	اتفاقية المطور

ابدأ البناء على OpenLegion

الأسئلة الشائعة

ما هي أنماط تصميم الذكاء الاصطناعي الوكيل؟

أنماط تصميم الذكاء الاصطناعي الوكيل هي حلول معمارية مسماة وقابلة لإعادة الاستخدام للمشكلات المتكررة في تصميم أنظمة الوكلاء. تشمل الأنماط الرئيسية ReAct وPlan-and-Execute وReflexion وCritic-Actor وSupervisor-Worker وMixture-of-Agents. اختيار النمط الخاطئ يؤدي إلى فشل محدد: ReAct في المهام الطويلة يسبب تخبط نافذة السياق؛ Plan-and-Execute بدون محفز إعادة تخطيط يراكم الأخطاء؛ Reflexion بدون تعقيم ذاكرة يتيح التسميم المستمر.

ما هو نمط ReAct لوكلاء الذكاء الاصطناعي؟

ReAct (Reasoning + Acting)، ياو وآخرون من Google Brain وPrinceton (arXiv أكتوبر 2022، ICLR 2023)، يتشابك فيه التفكير بالسلسلة مع استدعاءات الأدوات ونتائجها في لوحة ملاحظات لنافذة سياق واحدة. في المعايير، تفوق ReAct على التفكير بالسلسلة وحده بـ 14 نقطة في HotpotQA و9 نقاط في FEVER. المقايضة الرئيسية في الإنتاج هي نمو نافذة السياق. المخاطر الأمنية الرئيسية هي حقن لوحة الملاحظات.

ما هو نمط Plan-and-Execute لوكلاء الذكاء الاصطناعي؟

Plan-and-Execute يفصل وكيل المُخطط عن وكلاء المُنفّذين، مما يُقلل استهلاك نافذة السياق بنسبة 40-60% في المهام طويلة الأفق مقارنة بـ ReAct، ويتيح فحص سياسة الخطة الآلي قبل التنفيذ. وضع الفشل الرئيسي هو قِدَم الخطة، مما يتطلب محفز إعادة تخطيط.

ما هو نمط Reflexion لوكلاء الذكاء الاصطناعي؟

Reflexion (شين وآخرون، NeurIPS 2023) يجعل الوكلاء يُولّدون ملخصات لفظية لإخفاقات المهام، يُخزّنها في ذاكرة حلقية، ويهيئ المحاولات المستقبلية بناءً على التأملات المسترجعة. HumanEval تحسّن من 80% إلى 91% pass@1 وALFWorld من 73% إلى 97%. مخاطر الأمان هي تسميم الذاكرة الحلقية.

ما هو نمط Critic-Actor لوكلاء الذكاء الاصطناعي؟

نمط Critic-Actor يفصل نموذج الناقد (الذي يُقيّم الإجراءات المقترحة قبل التنفيذ) عن نموذج المُنفّذ (الذي يُولّد الإجراءات ويُنفّذها)، مما يضمن وصول الإجراءات التي تجتاز تقييم الناقد فقط إلى طبقة استدعاء الأدوات. مطلوب عندما تكون الإجراءات غير قابلة للإرجاع. نموذج ناقد منفصل بنافذة سياق مستقلة أقوى بكثير من الناقد ضمن السياق ذاته.

ما هو نمط Supervisor-Worker لوكلاء الذكاء الاصطناعي؟

Supervisor-Worker يتضمن وكيل مشرف يُحلّل الأهداف ويُوزّع المهام على وكلاء عمال متخصصين بأدوار محددة ومجموعات أدوات مقيّدة، بحيث يعمل كل عامل وفق مبدأ الحد الأدنى من الامتيازات. احتواء نطاق الضرر هو الميزة الأمنية الرئيسية.

ما هو Mixture-of-Agents (MoA)؟

Mixture-of-Agents (MoA)، وانغ وآخرون من Together AI (arXiv يونيو 2024)، يُجمّع مخرجات نسخ LLM متعددة عبر طبقات تنقية تكرارية. على AlpacaEval 2.0، حقق MoA ثلاثي الطبقات معدل فوز 65.1% مقابل 57.5% لـ GPT-4o. التكلفة في الإنتاج مُضاعِفة: زيادة بحوالي 12 ضعفاً في تكاليف API.

كيف أختار بين ReAct وPlan-and-Execute وReflexion؟

اختيار النمط يتبع ثلاثة محاور: مدة المهمة وقابلية إرجاع الإجراءات ومستوى الاستقلالية. للمهام القصيرة ذات الإجراءات القابلة للإرجاع، ReAct هو الاختيار الأبسط. للمهام متوسطة الأفق، Plan-and-Execute يُقلل استهلاك نافذة السياق بنسبة 40-60%. للمهام المتكررة التي يمكن للوكيل فيها التعلم من تاريخ إخفاقاته، Reflexion يضيف تحسينات أداء متراكمة. أضف Critic-Actor عندما تكون الإجراءات غير قابلة للإرجاع؛ وأضف Supervisor-Worker عندما تتطلب خطوات المهمة المختلفة مجموعات أدوات مختلفة فعلاً.