एजेंटिक AI डिज़ाइन पैटर्न: ReAct, Plan-and-Execute, Reflexion और अधिक

एजेंटिक AI डिज़ाइन पैटर्न एजेंट समन्वय की आवर्ती समस्याओं के लिए नामित, पुन: उपयोग योग्य वास्तुकला समाधान हैं -- प्रत्येक में परिभाषित संरचना, ज्ञात ट्रेडऑफ, विशेषता विफलता मोड और सुरक्षा निहितार्थ हैं। गलत पैटर्न चुनने से ठोस विफलताएं होती हैं: दीर्घकालिक कार्यों पर ReAct कॉन्टेक्स्ट विंडो थ्रैश का कारण बनता है; पुनः योजना के बिना Plan-and-Execute पुराने योजनाओं पर त्रुटियां जमा करता है; मेमोरी सैनिटाइज़ेशन के बिना Reflexion स्थायी मेमोरी विषाक्तता को सक्षम करता है। दो श्रेणियों में छह पैटर्न: एकल-एजेंट रीजनिंग पैटर्न (ReAct, Plan-and-Execute, Reflexion) और मल्टी-एजेंट समन्वय पैटर्न (Critic-Actor, Supervisor-Worker, Mixture-of-Agents)।

एजेंटिक AI डिज़ाइन पैटर्न एजेंट सिस्टम डिज़ाइन में आवर्ती समस्याओं के लिए नामित, पुन: उपयोग योग्य वास्तुकला समाधान हैं -- यह निर्दिष्ट करते हुए कि एजेंट कैसे तर्क करता है, योजना बनाता है, प्रतिबिंबित करता है, प्रत्यायोजित करता है और विफलता से उबरता है -- प्रत्येक में परिभाषित संरचना, ज्ञात ट्रेडऑफ, विशेषता विफलता मोड और सुरक्षा निहितार्थ हैं जिन्हें प्रोडक्शन में तैनात करने से पहले व्यवसायिकों को ध्यान में रखना चाहिए।

इस गाइड को कैसे पढ़ें: पैटर्न संरचना और चयन हेयुरिस्टिक्स

पैटर्न घटक: संरचना, ट्रेडऑफ, विफलता मोड, सुरक्षा गेट

इस गाइड में प्रत्येक पैटर्न चार घटकों के साथ वर्णित है:

संरचना: गद्य में वास्तुकला व्यवस्था -- कौन से एजेंट या मॉडल इंस्टेंस मौजूद हैं, वे कैसे संचार करते हैं, डेटा प्रवाह कैसा दिखता है और मुख्य आर्टिफैक्ट क्या है।

ट्रेडऑफ: पैटर्न किसके लिए अनुकूलित करता है बनाम क्या बलिदान करता है। ReAct ग्राउंड-ट्रूथ टूल एंकरिंग के लिए अनुकूलित करता है लेकिन कॉन्टेक्स्ट विंडो दक्षता का बलिदान करता है।

विफलता मोड: प्रत्येक पैटर्न प्रोडक्शन में कैसे विफल होता है, जो शैक्षणिक बेंचमार्क परिणामों से स्पष्ट नहीं होता।

सुरक्षा गेट: प्रत्येक पैटर्न के विशेषता सुरक्षा विफलता मोड को रोकने के लिए आवश्यक विशिष्ट नियंत्रण।

पैटर्न चयन हेयुरिस्टिक: कार्य अवधि x प्रतिवर्तनीयता x स्वायत्तता स्तर

तीन अक्ष तय करते हैं कि कौन से पैटर्न से शुरू करना है:

कार्य अवधि: छोटे कार्य (5 टूल कॉल तक) -- ReAct। मध्यम-क्षितिज कार्य (6-20 चरण) -- Plan-and-Execute। लंबे या खुले कार्य (20+ चरण) -- Reflexion या Supervisor-Worker।

प्रतिवर्तनीयता: यदि सभी क्रियाएं प्रतिवर्ती हैं, तो कोई भी पैटर्न लागू होता है। यदि कुछ क्रियाएं अपरिवर्तनीय हैं (फ़ाइल हटाना, ईमेल भेजना, डेटाबेस लिखना), तो उन विशिष्ट क्रियाओं से पहले Critic-Actor गेट जोड़ें।

स्वायत्तता स्तर: L1-L2 -- ReAct या Plan-and-Execute। L3 -- प्रति-भूमिका ब्लास्ट त्रिज्या नियंत्रण के साथ Reflexion या Supervisor-Worker। L4 -- कठोर सुरक्षा इन्फ्रास्ट्रक्चर के बिना प्रोडक्शन में तैनात नहीं।

ReAct: अंतर्मिश्रित तर्क और कार्य

संरचना: विचार -> क्रिया -> अवलोकन लूप

ReAct (Reasoning + Acting), Google Brain और Princeton के Yao एट अल (arXiv अक्टूबर 2022, ICLR 2023), एकल कॉन्टेक्स्ट विंडो स्क्रैचपैड में चेन-ऑफ-थॉट रीजनिंग को टूल कॉल के साथ अंतर्मिश्रित करता है। लूप:

Thought: [पिछले अवलोकन पर आधारित चेन-ऑफ-थॉट रीजनिंग]
Action: [टूल कॉल -- फ़ंक्शन नाम और पैरामीटर]
Observation: [एग्जीक्यूशन से लौटाया गया टूल परिणाम]
[तब तक दोहराएं:]
Thought: मेरे पास उत्तर देने के लिए पर्याप्त जानकारी है।
Action: Finish[अंतिम उत्तर]

मूल पेपर से बेंचमार्क परिणाम: HotpotQA -- ReAct के साथ 57.1% सटीक मिलान बनाम केवल चेन-ऑफ-थॉट 43.2% (+14 अंक)। FEVER -- 75.4% बनाम 66.4% (+9 अंक)।

ट्रेडऑफ: ग्राउंड ट्रूथ बनाम कॉन्टेक्स्ट विंडो वृद्धि

ReAct का प्राथमिक लाभ अवलोकनों में आधारित रीजनिंग है। लागत कॉन्टेक्स्ट विंडो वृद्धि है। प्रति ट्रिपल औसतन 200 टोकन के साथ 20-टूल-कॉल कार्य पर, स्क्रैचपैड अकेले 4,000 टोकन उपभोग करता है।

विफलता मोड: स्क्रैचपैड इंजेक्शन

ReAct का सुरक्षा विफलता मोड सीधे स्क्रैचपैड को लक्षित करता है। यदि कोई टूल अवलोकन विरोधी सामग्री रखता है, तो वह सामग्री शाब्दिक रूप से स्क्रैचपैड में जोड़ी जाती है।

एक साथ आवश्यक तीन शमन उपाय:

स्क्रैचपैड में जोड़ने से पहले प्रत्येक अवलोकन को सैनिटाइज़ करें
प्रेषण से पहले Zone 2 में प्रत्येक क्रिया को पूर्व-लॉग करें
प्रत्येक टूल अवलोकन को अविश्वसनीय इनपुट के रूप में मानें

Plan-and-Execute: योजना को निष्पादन से अलग करना

संरचना: प्लैनर किसी भी निष्पादन से पहले पूर्ण कार्य विघटन उत्पन्न करता है

Plan-and-Execute दो चिंताओं को अलग करता है जिन्हें ReAct अंतर्मिश्रित करता है: एक प्लैनर एजेंट लक्ष्य प्राप्त करता है और किसी भी निष्पादन शुरू होने से पहले पूर्ण कार्य विघटन उत्पन्न करता है।

कॉन्टेक्स्ट विंडो दक्षता: योजना कॉम्पैक्ट है (अधिकांश कार्यों के लिए 50-150 टोकन)। दीर्घकालिक कार्यों पर, ReAct की तुलना में लगभग 40-60% कॉन्टेक्स्ट विंडो कमी उत्पन्न होती है।

ट्रेडऑफ: दक्षता बनाम योजना की पुरानी हो जाना

प्राथमिक विफलता मोड योजना की पुरानी हो जाना है। T=0 पर योजना उत्पन्न होती है। यदि निष्पादन के दौरान वातावरण बदलता है, तो शेष चरण अमान्य पूर्व-शर्तों पर आधारित हो सकते हैं।

सुरक्षा गेट: प्रेषण से पहले योजना निरीक्षण

योजना किसी भी टूल कॉल से पहले उपलब्ध एक अलग आर्टिफैक्ट है। स्वचालित पूर्व-निष्पादन नीति जांच: निषिद्ध क्रिया प्रकारों के लिए योजना को पार्स करें, जांचें कि प्रत्येक टूल नाम एजेंट की अनुमत-क्रिया सूची में दिखाई देता है।

Reflexion: मौखिक सुदृढीकरण के माध्यम से विफलता से सीखना

संरचना: प्रतिबिंब -> संग्रह -> अगले प्रयास की स्थिति निर्धारण

Reflexion, Northeastern, MIT और Princeton के Shinn एट अल (arXiv मार्च 2023, NeurIPS 2023), एक मौखिक सुदृढीकरण सीखने का पैटर्न है: कार्य प्रयास विफल होने के बाद, एजेंट प्राकृतिक भाषा प्रतिबिंब उत्पन्न करता है, इसे एपिसोडिक मेमोरी बफर में संग्रहीत करता है, और पुनः प्राप्त प्रतिबिंब पर अगले प्रयास को कंडीशन करता है।

बेंचमार्क परिणाम: HumanEval कोडिंग pass@1 -- Reflexion के साथ 91% बनाम 80% (+11 अंक)। ALFWorld -- 97% बनाम 73% (+24 अंक)।

सुरक्षा जोखिम: एपिसोडिक मेमोरी पॉइज़निंग

Reflexion का सुरक्षा विफलता मोड ReAct के स्क्रैचपैड इंजेक्शन जोखिम से अलग और अधिक स्थायी है। यदि अवलोकन में विरोधी सामग्री है, तो उत्पन्न प्रतिबिंब अनिश्चित काल के लिए हमलावर-नियंत्रित मार्गदर्शन को एनकोड कर सकता है।

क्रम में आवश्यक चार शमन उपाय: संग्रह से पहले प्रतिबिंब सैनिटाइज़ेशन; agent_id एट्रिब्यूशन के साथ वर्शन किया गया ब्लैकबोर्ड स्टोरेज; प्रतिबिंब TTL; श्रेणीबद्ध व्यवहार परिवर्तन प्रस्तावित करने वाले प्रतिबिंबों के लिए HITL समीक्षा गेट।

Critic-Actor: मूल्यांकन को निष्पादन से अलग करना

संरचना: अभिनेता प्रस्ताव करता है, आलोचक निष्पादन से पहले रोकता है

Critic-Actor पैटर्न, RLHF और Constitutional AI (Anthropic, 2022) से व्युत्पन्न, क्रिया उत्पादन को क्रिया मूल्यांकन से अलग करता है। Actor मॉडल एक क्रिया प्रस्तावित करता है; Critic मॉडल नीति के विरुद्ध प्रस्तावित क्रिया का मूल्यांकन करता है; केवल Critic के मूल्यांकन पास करने वाली क्रियाएं टूल कॉल लेयर तक आगे बढ़ती हैं।

महत्वपूर्ण कार्यान्वयन विवरण: Critic के पास Actor से स्वतंत्र कॉन्टेक्स्ट विंडो होनी चाहिए। एक same-context Critic Actor का पूरा कॉन्टेक्स्ट साझा करता है।

Critic-Actor कब उपयोग करें: अपरिवर्तनीयता सीमा

Critic-Actor विलंबता जोड़ता है और जब क्रियाएं अपरिवर्तनीयता सीमा पार करती हैं तो आवश्यक होता है: फ़ाइल हटाना, ईमेल भेजना, डेटाबेस लिखना, बाहरी API के POST कॉल।

Supervisor-Worker: भूमिका-आधारित मल्टी-एजेंट समन्वय

संरचना: सुपरवाइज़र विघटन करता है, वर्कर भूमिका के भीतर निष्पादन करते हैं

Supervisor-Worker में एक सुपरवाइज़र एजेंट लक्ष्य प्राप्त करता है, इसे कार्यों में विघटित करता है, और प्रत्येक कार्य को परिभाषित भूमिका और प्रतिबंधित टूल सेट के साथ विशेष वर्कर एजेंट को भेजता है:

ResearchWorker: टूल = web_search, read_file, read_url
CodeWorker: टूल = run_command, write_file, read_file
CommWorker: टूल = send_email, post_message

सुरक्षा गुण: समझौता किए गए वर्कर ब्लास्ट त्रिज्या नियंत्रण

Supervisor-Worker की प्राथमिक सुरक्षा संपत्ति ब्लास्ट त्रिज्या नियंत्रण है: एक समझौता किया गया वर्कर केवल अपनी परिभाषित भूमिका के भीतर टूल कॉल कर सकता है। एक ResearchWorker जो send_email() कॉल करने के लिए इंजेक्टेड निर्देश प्राप्त करता है, Zone 2 के अनुमति जांच में विफल होगा।

Mixture-of-Agents: मॉडल इंस्टेंस में एन्सेम्बल रीजनिंग

संरचना: मॉडल आउटपुट का बहु-परत एकत्रीकरण

Mixture-of-Agents (MoA), Together AI के Wang एट अल (arXiv जून 2024), पुनरावृत्त परिष्करण परतों के माध्यम से कई LLM इंस्टेंस से आउटपुट एकत्रित करता है। AlpacaEval 2.0 पर बेंचमार्क: 3-परत MoA के साथ 65.1% जीत दर बनाम GPT-4o का 57.5% -- 7.6-पॉइंट गुणवत्ता सुधार।

ट्रेडऑफ: गुणवत्ता बनाम API लागत गुणन

3-मॉडल x 3-परत MoA के लिए प्रति उपयोगकर्ता अनुरोध लगभग 12 LLM कॉल की आवश्यकता होती है बनाम एकल मॉडल के लिए 1 -- लगभग 12x API लागत वृद्धि। MoA उच्च-आवृत्ति, विलंबता-संवेदनशील एजेंट लूप के लिए अनुपयुक्त है।

OpenLegion का दृष्टिकोण: पैटर्न सुरक्षा बुनियादी ढांचा है, प्रॉम्प्ट इंजीनियरिंग नहीं

इस गाइड में प्रत्येक एजेंटिक डिज़ाइन पैटर्न में एक सुरक्षा विफलता मोड है जिसे मूल शैक्षणिक पेपर ने कवर नहीं किया। पैटर्न-विशिष्ट सुरक्षा विफलता मोड:

ReAct स्क्रैचपैड इंजेक्शन: विरोधी अवलोकन सामग्री Thought चरण इंजेक्ट करती है
Plan-and-Execute योजना इंजेक्शन: योजना आर्टिफैक्ट प्लैनर और एग्जीक्यूटर के बीच संशोधित किया जा सकता है
Reflexion मेमोरी पॉइज़निंग: विषाक्त प्रतिबिंब सत्रों में एपिसोडिक बफर में बना रहता है
Same-context Critic बाईपास: Actor कॉन्टेक्स्ट को इंजेक्ट करने से Critic के मूल्यांकन को भी नुकसान होता है
सुपरवाइज़र समझौता: समझौता किया गया सुपरवाइज़र सभी वर्कर को मनमाने कार्य भेज सकता है

सुरक्षा नियंत्रण	OpenLegion	LangChain / LangGraph	CrewAI	AutoGen	OpenAI Agents SDK
पूर्व-निष्पादन क्रिया लॉगिंग	Zone 2, नेटिव	डेवलपर सम्मेलन	डेवलपर सम्मेलन	डेवलपर सम्मेलन	डेवलपर सम्मेलन
ब्लैकबोर्ड योजना ACL	इन्फ्रास्ट्रक्चर-प्रवर्तित	उपलब्ध नहीं	उपलब्ध नहीं	उपलब्ध नहीं	उपलब्ध नहीं
agent_id एट्रिब्यूशन के साथ वर्शन किया गया एपिसोडिक मेमोरी	नेटिव	डेवलपर सम्मेलन	डेवलपर सम्मेलन	डेवलपर सम्मेलन	डेवलपर सम्मेलन
स्वतंत्र संदर्भ के साथ अलग-मॉडल Critic	नेटिव एजेंट अलगाव	मैनुअल सेटअप	मैनुअल सेटअप	मैनुअल सेटअप	मैनुअल सेटअप
प्रति-वर्कर Zone 2 टूल अनुमति प्रवर्तन	इन्फ्रास्ट्रक्चर-प्रवर्तित	डेवलपर सम्मेलन	डेवलपर सम्मेलन	डेवलपर सम्मेलन	डेवलपर सम्मेलन

OpenLegion पर निर्माण शुरू करें

अक्सर पूछे जाने वाले प्रश्न

एजेंटिक AI डिज़ाइन पैटर्न क्या हैं?

एजेंटिक AI डिज़ाइन पैटर्न एजेंट सिस्टम डिज़ाइन में आवर्ती समस्याओं के लिए नामित, पुन: उपयोग योग्य वास्तुकला समाधान हैं। प्रमुख पैटर्न में ReAct, Plan-and-Execute, Reflexion, Critic-Actor, Supervisor-Worker और Mixture-of-Agents शामिल हैं। गलत पैटर्न चुनने से ठोस विफलताएं होती हैं: ReAct दीर्घकालिक कार्यों पर कॉन्टेक्स्ट विंडो थ्रैश का कारण बनता है; Plan-and-Execute बिना पुनः योजना ट्रिगर के त्रुटियां जमा करता है; Reflexion बिना मेमोरी सैनिटाइज़ेशन के स्थायी पॉइज़निंग को सक्षम करता है।

AI एजेंट के लिए ReAct पैटर्न क्या है?

ReAct (Reasoning + Acting), Google Brain और Princeton के Yao एट अल (arXiv अक्टूबर 2022, ICLR 2023), चेन-ऑफ-थॉट रीजनिंग को टूल कॉल और टूल परिणामों के साथ एकल कॉन्टेक्स्ट विंडो स्क्रैचपैड में अंतर्मिश्रित करता है। बेंचमार्क पर, ReAct HotpotQA में 14 अंक और FEVER में 9 अंक आगे रहा। प्राथमिक प्रोडक्शन ट्रेडऑफ कॉन्टेक्स्ट विंडो वृद्धि है। प्राथमिक सुरक्षा जोखिम स्क्रैचपैड इंजेक्शन है।

AI एजेंट के लिए Plan-and-Execute पैटर्न क्या है?

Plan-and-Execute एक प्लैनर एजेंट को एग्जीक्यूटर एजेंट से अलग करता है, ReAct की तुलना में दीर्घकालिक कार्यों पर कॉन्टेक्स्ट विंडो उपभोग को लगभग 40-60% कम करता है और किसी भी टूल कॉल से पहले योजना की स्वचालित पूर्व-निष्पादन नीति जांच सक्षम करता है। प्राथमिक विफलता मोड योजना की पुरानी हो जाना है, जिसके लिए पुनः योजना ट्रिगर की आवश्यकता होती है।

AI एजेंट के लिए Reflexion पैटर्न क्या है?

Reflexion (Shinn एट अल, NeurIPS 2023) एजेंट को कार्य विफलताओं की मौखिक सारांश उत्पन्न करने, एपिसोडिक मेमोरी में संग्रहीत करने और पुनः प्राप्त प्रतिबिंबों पर भविष्य के प्रयासों को कंडीशन करने देता है। HumanEval कोडिंग 80% से 91% pass@1 तक सुधरी और ALFWorld 73% से 97% तक। सुरक्षा जोखिम एपिसोडिक मेमोरी पॉइज़निंग है।

AI एजेंट के लिए Critic-Actor पैटर्न क्या है?

Critic-Actor पैटर्न Critic मॉडल (निष्पादन से पहले नीति के विरुद्ध प्रस्तावित क्रियाओं का मूल्यांकन) को Actor मॉडल (क्रियाएं उत्पन्न और निष्पादित करना) से अलग करता है, यह सुनिश्चित करता है कि केवल Critic के मूल्यांकन पास करने वाली क्रियाएं टूल कॉल लेयर तक पहुंचें। अपरिवर्तनीय क्रियाओं (फ़ाइल हटाना, ईमेल भेजना, डेटाबेस लिखना) के लिए आवश्यक। स्वतंत्र कॉन्टेक्स्ट विंडो वाला अलग-मॉडल Critic same-context Critic से काफी मजबूत है।

AI एजेंट के लिए Supervisor-Worker पैटर्न क्या है?

Supervisor-Worker में एक सुपरवाइज़र एजेंट लक्ष्यों को विघटित करता है और परिभाषित भूमिकाओं और प्रतिबंधित टूल सेट के साथ विशेष वर्कर एजेंटों को कार्य भेजता है, ताकि प्रत्येक वर्कर न्यूनतम विशेषाधिकार के तहत काम करे। ब्लास्ट त्रिज्या नियंत्रण प्राथमिक सुरक्षा लाभ है: अपनी भूमिका के बाहर टूल उपयोग करने की कोशिश करने वाला इंजेक्टेड वर्कर Zone 2 अनुमति जांच में विफल होता है।

Mixture-of-Agents (MoA) क्या है?

Mixture-of-Agents (MoA), Together AI के Wang एट अल (arXiv जून 2024), पुनरावृत्त परिष्करण परतों के माध्यम से कई LLM प्रोपोज़र इंस्टेंस से आउटपुट एकत्रित करता है। AlpacaEval 2.0 पर 3-परत MoA ने GPT-4o के 57.5% के मुकाबले 65.1% जीत दर हासिल की। प्रोडक्शन लागत गुणात्मक है: लगभग 12x API लागत वृद्धि।

ReAct, Plan-and-Execute और Reflexion के बीच कैसे चुनूं?

पैटर्न चयन तीन अक्षों का अनुसरण करता है: कार्य अवधि, क्रिया प्रतिवर्तनीयता और स्वायत्तता स्तर। प्रतिवर्ती क्रियाओं वाले छोटे कार्यों के लिए, ReAct सबसे सरल विकल्प है। मध्यम-क्षितिज कार्यों के लिए, Plan-and-Execute कॉन्टेक्स्ट विंडो उपभोग को 40-60% कम करता है। ऐसे दोहराने वाले कार्यों के लिए जहां एजेंट अपनी विफलता इतिहास से सीख सकता है, Reflexion संचयी प्रदर्शन सुधार जोड़ता है। क्रियाएं अपरिवर्तनीय होने पर Critic-Actor जोड़ें; जब अलग-अलग कार्य चरणों को वास्तव में अलग टूल सेट की आवश्यकता हो तो Supervisor-Worker जोड़ें।