รูปแบบการออกแบบ Agentic AI: ReAct, Plan-and-Execute, Reflexion และอื่นๆ

รูปแบบการออกแบบ Agentic AI คือโซลูชันสถาปัตยกรรมที่มีชื่อเรียกและนำกลับมาใช้ใหม่ได้สำหรับปัญหาที่เกิดขึ้นซ้ำในการประสานงานเอเจนต์ แต่ละรูปแบบมีโครงสร้างที่กำหนดไว้ trade-off ที่ทราบอยู่แล้ว โหมดความล้มเหลวที่เป็นลักษณะเฉพาะ และผลกระทบด้านความปลอดภัย การเลือกรูปแบบที่ผิดส่งผลให้เกิดความล้มเหลวที่เป็นรูปธรรม: ReAct กับงานระยะยาวทำให้เกิด context window thrash; Plan-and-Execute ที่ไม่มีการวางแผนใหม่จะสะสมข้อผิดพลาดบนแผนที่ล้าสมัย; Reflexion ที่ไม่มีการทำความสะอาดหน่วยความจำทำให้เกิดการวางยาพิษหน่วยความจำอย่างต่อเนื่อง หกรูปแบบในสองหมวดหมู่: รูปแบบการใช้เหตุผลของเอเจนต์เดี่ยว (ReAct, Plan-and-Execute, Reflexion) และรูปแบบการประสานงานหลายเอเจนต์ (Critic-Actor, Supervisor-Worker, Mixture-of-Agents)

รูปแบบการออกแบบ Agentic AI คือโซลูชันสถาปัตยกรรมที่มีชื่อเรียกและนำกลับมาใช้ใหม่ได้สำหรับปัญหาที่เกิดขึ้นซ้ำในการออกแบบระบบเอเจนต์ ระบุวิธีที่เอเจนต์ใช้เหตุผล วางแผน สะท้อน มอบหมาย และฟื้นตัวจากความล้มเหลว โดยแต่ละรูปแบบมีโครงสร้างที่กำหนดไว้ trade-off ที่ทราบอยู่แล้ว โหมดความล้มเหลวที่เป็นลักษณะเฉพาะ และผลกระทบด้านความปลอดภัยที่นักปฏิบัติต้องพิจารณาก่อนนำไปใช้งานในโปรดักชั่น

วิธีอ่านคู่มือนี้: โครงสร้างรูปแบบและหลักการเลือก

ส่วนประกอบของรูปแบบ: โครงสร้าง trade-off โหมดความล้มเหลว ประตูความปลอดภัย

รูปแบบแต่ละอย่างในคู่มือนี้อธิบายด้วยส่วนประกอบสี่อย่าง:

โครงสร้าง: การจัดเรียงสถาปัตยกรรมในรูปแบบร้อยแก้ว -- เอเจนต์หรืออินสแตนซ์โมเดลใดมีอยู่ สื่อสารกันอย่างไร การไหลของข้อมูลเป็นอย่างไร และสิ่งประดิษฐ์หลักคืออะไร

Trade-off: สิ่งที่รูปแบบปรับให้เหมาะสมเทียบกับสิ่งที่ยอมแลก ReAct ปรับให้เหมาะสมสำหรับการยึดเครื่องมือ ground-truth แต่ยอมแลกประสิทธิภาพของ context window

โหมดความล้มเหลว: วิธีเฉพาะที่แต่ละรูปแบบล้มเหลวในโปรดักชั่น ซึ่งไม่ชัดเจนจากผลการทดสอบ benchmark ทางวิชาการ

ประตูความปลอดภัย: การควบคุมเฉพาะที่จำเป็นเพื่อป้องกันโหมดความล้มเหลวด้านความปลอดภัยของแต่ละรูปแบบ

หลักการเลือกรูปแบบ: ระยะเวลางาน x ความสามารถในการย้อนกลับ x ระดับความเป็นอิสระ

สามแกนกำหนดว่าควรเริ่มจากรูปแบบใด:

ระยะเวลางาน: งานสั้น (สูงสุด 5 การเรียกใช้เครื่องมือ) -- ReAct งานระยะกลาง (6-20 ขั้นตอน) -- Plan-and-Execute งานยาวหรืองานปลายเปิด (20+ ขั้นตอน) -- Reflexion หรือ Supervisor-Worker

ความสามารถในการย้อนกลับ: หากทุกการกระทำย้อนกลับได้ รูปแบบใดก็ใช้ได้ หากบางการกระทำย้อนกลับไม่ได้ (การลบไฟล์ การส่งอีเมล การเขียนฐานข้อมูล) ให้เพิ่มประตู Critic-Actor ก่อนการกระทำเหล่านั้น

ระดับความเป็นอิสระ: L1-L2 -- ReAct หรือ Plan-and-Execute L3 -- Reflexion หรือ Supervisor-Worker ที่มีการจำกัด blast radius ต่อบทบาท L4 -- ไม่นำไปใช้งานในโปรดักชั่นโดยไม่มีโครงสร้างพื้นฐานด้านความปลอดภัยที่เข้มแข็ง

ReAct: การใช้เหตุผลและการกระทำที่สลับกัน

โครงสร้าง: ลูป Thought -> Action -> Observation

ReAct (Reasoning + Acting) ของ Yao และคณะจาก Google Brain และ Princeton (arXiv ตุลาคม 2022, ICLR 2023) สลับการใช้เหตุผลแบบ chain-of-thought กับการเรียกใช้เครื่องมือในสมุดบันทึก context window เดียว ลูป:

Thought: [การใช้เหตุผลแบบ chain-of-thought อ้างอิงจาก Observation ก่อนหน้า]
Action: [การเรียกใช้เครื่องมือ -- ชื่อฟังก์ชันและพารามิเตอร์]
Observation: [ผลลัพธ์เครื่องมือที่ส่งกลับจากการรัน]
[ทำซ้ำจนกว่า:]
Thought: ฉันมีข้อมูลเพียงพอที่จะตอบได้แล้ว
Action: Finish[คำตอบสุดท้าย]

ผล benchmark จากบทความต้นฉบับ: HotpotQA -- 57.1% exact match กับ ReAct เทียบกับ chain-of-thought เพียงอย่างเดียว 43.2% (+14 คะแนน) FEVER -- 75.4% เทียบกับ 66.4% (+9 คะแนน)

Trade-off: Ground Truth เทียบกับการเติบโตของ Context Window

ข้อดีหลักของ ReAct คือการใช้เหตุผลที่ยึดอยู่กับ Observations ต้นทุนคือการเติบโตของ context window งานที่มีการเรียกใช้เครื่องมือ 20 ครั้งด้วยเฉลี่ย 200 token ต่อ triple สมุดบันทึกเพียงอย่างเดียวใช้ 4,000 token

โหมดความล้มเหลว: Scratchpad Injection

โหมดความล้มเหลวด้านความปลอดภัยของ ReAct กำหนดเป้าหมายตรงที่สมุดบันทึก หาก Observation ของเครื่องมือมีเนื้อหาที่เป็นปฏิปักษ์ เนื้อหานั้นจะถูกเพิ่มลงในสมุดบันทึกแบบตามตัวอักษร

การบรรเทาสามอย่างที่จำเป็นต้องทำพร้อมกัน:

ทำความสะอาดทุก Observation ก่อนเพิ่มลงในสมุดบันทึก
บันทึกทุก Action ล่วงหน้าที่ Zone 2 ก่อนส่ง
ถือว่าทุก Observation ของเครื่องมือเป็น input ที่ไม่น่าเชื่อถือ

Plan-and-Execute: การแยกการวางแผนออกจากการดำเนินการ

โครงสร้าง: Planner สร้างการแยกย่อยงานทั้งหมดก่อนการดำเนินการใดๆ

Plan-and-Execute แยกสองความกังวลที่ ReAct ผสมรวมกัน: เอเจนต์ Planner รับเป้าหมายและสร้างการแยกย่อยงานทั้งหมดก่อนเริ่มการดำเนินการใดๆ

ประสิทธิภาพ context window: แผนมีขนาดกะทัดรัด (50-150 token สำหรับงานส่วนใหญ่) สำหรับงานระยะยาว ลดการใช้ context window ประมาณ 40-60% เทียบกับ ReAct

Trade-off: ประสิทธิภาพเทียบกับแผนที่ล้าสมัย

โหมดความล้มเหลวหลักคือแผนที่ล้าสมัย แผนถูกสร้างขึ้นที่ T=0 หากสภาพแวดล้อมเปลี่ยนแปลงระหว่างการดำเนินการ ขั้นตอนที่เหลืออาจอ้างอิงเงื่อนไขเบื้องต้นที่ไม่ถูกต้อง

ประตูความปลอดภัย: การตรวจสอบแผนก่อนส่ง

แผนเป็นสิ่งประดิษฐ์แยกต่างหากที่พร้อมใช้งานก่อนการเรียกใช้เครื่องมือใดๆ การตรวจสอบนโยบายก่อนการดำเนินการอัตโนมัติ: วิเคราะห์แผนสำหรับประเภทการกระทำที่ต้องห้าม ตรวจสอบว่าชื่อเครื่องมือแต่ละอย่างปรากฏในรายการการกระทำที่ได้รับอนุญาตของเอเจนต์

Reflexion: การเรียนรู้จากความล้มเหลวผ่านการเสริมแรงทางวาจา

โครงสร้าง: สะท้อน -> จัดเก็บ -> กำหนดเงื่อนไขการพยายามครั้งต่อไป

Reflexion ของ Shinn และคณะจาก Northeastern, MIT และ Princeton (arXiv มีนาคม 2023, NeurIPS 2023) เป็นรูปแบบการเรียนรู้แบบเสริมแรงทางวาจา: หลังจากความล้มเหลวของการพยายามงาน เอเจนต์จะสร้างการสะท้อนในภาษาธรรมชาติ จัดเก็บในบัฟเฟอร์หน่วยความจำแบบ episodic และกำหนดเงื่อนไขการพยายามครั้งต่อไปตามการสะท้อนที่ดึงขึ้นมา

ผล benchmark: HumanEval coding pass@1 -- 91% กับ Reflexion เทียบกับ 80% (+11 คะแนน) ALFWorld -- 97% เทียบกับ 73% (+24 คะแนน)

ความเสี่ยงด้านความปลอดภัย: การวางยาพิษหน่วยความจำแบบ Episodic

โหมดความล้มเหลวด้านความปลอดภัยของ Reflexion แตกต่างและคงอยู่นานกว่าความเสี่ยงของ scratchpad injection ของ ReAct หาก Observation มีเนื้อหาที่เป็นปฏิปักษ์ การสะท้อนที่สร้างขึ้นสามารถเข้ารหัสคำแนะนำที่ผู้โจมตีควบคุมได้อย่างไม่มีกำหนด

การบรรเทาสี่อย่างที่จำเป็นตามลำดับ: การทำความสะอาดการสะท้อนก่อนจัดเก็บ; การจัดเก็บ blackboard แบบมีเวอร์ชันพร้อมการระบุ agent_id; TTL ของการสะท้อน; ประตูการตรวจสอบ HITL สำหรับการสะท้อนที่เสนอการเปลี่ยนแปลงพฤติกรรมเชิงหมวดหมู่

Critic-Actor: การแยกการประเมินออกจากการดำเนินการ

โครงสร้าง: Actor เสนอ Critic ดักจับก่อนการดำเนินการ

รูปแบบ Critic-Actor ที่มาจาก RLHF และ Constitutional AI (Anthropic, 2022) แยกการสร้างการกระทำออกจากการประเมินการกระทำ โมเดล Actor เสนอการกระทำ; โมเดล Critic ประเมินการกระทำที่เสนอเทียบกับนโยบาย; เฉพาะการกระทำที่ผ่านการประเมินของ Critic เท่านั้นที่จะดำเนินการต่อไปยังชั้น tool call

รายละเอียดการนำไปใช้ที่สำคัญ: Critic ต้องมี context window อิสระจาก Actor Critic แบบ same-context แบ่งปัน context ทั้งหมดของ Actor

เมื่อใดควรใช้ Critic-Actor: เกณฑ์ความย้อนกลับไม่ได้

Critic-Actor เพิ่ม latency และจำเป็นเมื่อการกระทำข้ามเกณฑ์ความย้อนกลับไม่ได้: การลบไฟล์ การส่งอีเมล การเขียนฐานข้อมูล การเรียก POST API ภายนอก

Supervisor-Worker: การประสานงานหลายเอเจนต์ตามบทบาท

โครงสร้าง: Supervisor แยกย่อย Worker ดำเนินการในขอบเขตบทบาท

Supervisor-Worker มีเอเจนต์ Supervisor ที่รับเป้าหมาย แยกย่อยเป็นงาน และส่งงานแต่ละชิ้นให้เอเจนต์ Worker ที่เชี่ยวชาญด้วยบทบาทที่กำหนดและชุดเครื่องมือที่จำกัด:

ResearchWorker: เครื่องมือ = web_search, read_file, read_url
CodeWorker: เครื่องมือ = run_command, write_file, read_file
CommWorker: เครื่องมือ = send_email, post_message

คุณสมบัติด้านความปลอดภัย: การจำกัด Blast Radius ของ Worker ที่ถูกโจมตี

คุณสมบัติด้านความปลอดภัยหลักของ Supervisor-Worker คือการจำกัด blast radius: Worker ที่ถูกโจมตีสามารถเรียกใช้เครื่องมือภายในบทบาทที่กำหนดเท่านั้น ResearchWorker ที่ได้รับคำสั่งที่ถูกฉีดให้เรียก send_email() จะล้มเหลวในการตรวจสอบสิทธิ์ Zone 2

Mixture-of-Agents: การใช้เหตุผลแบบ Ensemble ข้ามอินสแตนซ์โมเดล

โครงสร้าง: การรวมผลลัพธ์โมเดลหลายชั้น

Mixture-of-Agents (MoA) ของ Wang และคณะจาก Together AI (arXiv มิถุนายน 2024) รวมผลลัพธ์จากอินสแตนซ์ LLM หลายตัวผ่านชั้นการปรับปรุงแบบวนซ้ำ Benchmark บน AlpacaEval 2.0: 65.1% win rate กับ MoA 3 ชั้น เทียบกับ 57.5% ของ GPT-4o ปรับปรุงคุณภาพ 7.6 คะแนน

Trade-off: คุณภาพเทียบกับการคูณต้นทุน API

MoA 3 โมเดล x 3 ชั้นต้องการประมาณ 12 การเรียก LLM ต่อคำขอผู้ใช้ เทียบกับ 1 สำหรับโมเดลเดียว ต้นทุน API เพิ่มขึ้นประมาณ 12 เท่า MoA ไม่เหมาะสำหรับลูปเอเจนต์ความถี่สูงที่ไวต่อ latency

มุมมองของ OpenLegion: ความปลอดภัยของรูปแบบคือโครงสร้างพื้นฐาน ไม่ใช่การวิศวกรรม prompt

รูปแบบการออกแบบ agentic ทุกอย่างในคู่มือนี้มีโหมดความล้มเหลวด้านความปลอดภัยที่บทความวิชาการต้นฉบับไม่ได้ครอบคลุม โหมดความล้มเหลวด้านความปลอดภัยเฉพาะรูปแบบ:

ReAct scratchpad injection: เนื้อหา Observation ที่เป็นปฏิปักษ์ฉีดขั้นตอน Thought
Plan-and-Execute plan injection: สิ่งประดิษฐ์แผนอาจถูกแก้ไขระหว่าง Planner และ Executor
Reflexion memory poisoning: การสะท้อนที่ถูกวางยาพิษคงอยู่ในบัฟเฟอร์ episodic ข้ามเซสชัน
Same-context Critic bypass: การฉีด context ของ Actor ก็ทำลายการประเมินของ Critic ด้วย
Supervisor compromise: Supervisor ที่ถูกโจมตีสามารถส่งงานใดๆ ก็ได้ให้ Worker ทั้งหมด

การควบคุมความปลอดภัย	OpenLegion	LangChain / LangGraph	CrewAI	AutoGen	OpenAI Agents SDK
การบันทึก Action ก่อนดำเนินการ	Zone 2, native	แนวทางนักพัฒนา	แนวทางนักพัฒนา	แนวทางนักพัฒนา	แนวทางนักพัฒนา
Blackboard plan ACL	บังคับใช้โดยโครงสร้างพื้นฐาน	ไม่มี	ไม่มี	ไม่มี	ไม่มี
หน่วยความจำ episodic แบบมีเวอร์ชันพร้อมการระบุ agent_id	Native	แนวทางนักพัฒนา	แนวทางนักพัฒนา	แนวทางนักพัฒนา	แนวทางนักพัฒนา
โมเดล Critic แยกต่างหากพร้อม context อิสระ	การแยกตัวเอเจนต์ native	การตั้งค่าด้วยตนเอง	การตั้งค่าด้วยตนเอง	การตั้งค่าด้วยตนเอง	การตั้งค่าด้วยตนเอง
การบังคับใช้สิทธิ์เครื่องมือ Zone 2 ต่อ Worker	บังคับใช้โดยโครงสร้างพื้นฐาน	แนวทางนักพัฒนา	แนวทางนักพัฒนา	แนวทางนักพัฒนา	แนวทางนักพัฒนา

เริ่มสร้างบน OpenLegion

คำถามที่พบบ่อย

รูปแบบการออกแบบ Agentic AI คืออะไร?

รูปแบบการออกแบบ Agentic AI คือโซลูชันสถาปัตยกรรมที่มีชื่อเรียกและนำกลับมาใช้ใหม่ได้สำหรับปัญหาที่เกิดขึ้นซ้ำในการออกแบบระบบเอเจนต์ รูปแบบหลักได้แก่ ReAct, Plan-and-Execute, Reflexion, Critic-Actor, Supervisor-Worker และ Mixture-of-Agents การเลือกรูปแบบที่ผิดส่งผลให้เกิดความล้มเหลวที่เป็นรูปธรรม: ReAct กับงานยาวทำให้เกิด context window thrash; Plan-and-Execute ที่ไม่มี trigger การวางแผนใหม่จะสะสมข้อผิดพลาด; Reflexion ที่ไม่มีการทำความสะอาดหน่วยความจำทำให้เกิดการวางยาพิษอย่างต่อเนื่อง

รูปแบบ ReAct สำหรับเอเจนต์ AI คืออะไร?

ReAct (Reasoning + Acting) ของ Yao และคณะจาก Google Brain และ Princeton (arXiv ตุลาคม 2022, ICLR 2023) สลับการใช้เหตุผลแบบ chain-of-thought กับการเรียกใช้เครื่องมือและผลลัพธ์เครื่องมือในสมุดบันทึก context window เดียว ยึดแต่ละขั้นตอนการใช้เหตุผลกับผลลัพธ์เครื่องมือจริง ใน benchmark ReAct เอาชนะ chain-of-thought เพียงอย่างเดียว 14 คะแนนใน HotpotQA และ 9 คะแนนใน FEVER trade-off หลักในโปรดักชั่นคือการเติบโตของ context window ความเสี่ยงด้านความปลอดภัยหลักคือ scratchpad injection

รูปแบบ Plan-and-Execute สำหรับเอเจนต์ AI คืออะไร?

Plan-and-Execute แยกเอเจนต์ Planner ออกจากเอเจนต์ Executor ลดการใช้ context window ประมาณ 40-60% บนงานระยะยาวเมื่อเทียบกับ ReAct และช่วยให้ตรวจสอบนโยบายแผนก่อนการดำเนินการอัตโนมัติได้ก่อนการเรียกใช้เครื่องมือใดๆ โหมดความล้มเหลวหลักคือแผนที่ล้าสมัย ซึ่งต้องใช้ trigger การวางแผนใหม่

รูปแบบ Reflexion สำหรับเอเจนต์ AI คืออะไร?

Reflexion (Shinn และคณะ, NeurIPS 2023) ให้เอเจนต์สร้างบทสรุปทางวาจาของความล้มเหลวในงาน จัดเก็บในหน่วยความจำแบบ episodic และกำหนดเงื่อนไขการพยายามในอนาคตตามการสะท้อนที่ดึงขึ้นมา HumanEval coding ดีขึ้นจาก 80% เป็น 91% pass@1 และ ALFWorld จาก 73% เป็น 97% ความเสี่ยงด้านความปลอดภัยคือการวางยาพิษหน่วยความจำแบบ episodic

รูปแบบ Critic-Actor สำหรับเอเจนต์ AI คืออะไร?

รูปแบบ Critic-Actor แยกโมเดล Critic (ประเมินการกระทำที่เสนอก่อนการดำเนินการเทียบกับนโยบาย) ออกจากโมเดล Actor (สร้างและดำเนินการกระทำ) ทำให้มั่นใจว่าเฉพาะการกระทำที่ผ่านการประเมินของ Critic เท่านั้นที่จะถึงชั้น tool call จำเป็นเมื่อการกระทำย้อนกลับไม่ได้ โมเดล Critic แยกต่างหากพร้อม context window อิสระแข็งแกร่งกว่า same-context Critic อย่างมาก

รูปแบบ Supervisor-Worker สำหรับเอเจนต์ AI คืออะไร?

Supervisor-Worker มีเอเจนต์ Supervisor ที่แยกย่อยเป้าหมายและส่งงานให้เอเจนต์ Worker ที่เชี่ยวชาญด้วยบทบาทที่กำหนดและชุดเครื่องมือที่จำกัด ทำให้แต่ละ Worker ทำงานภายใต้หลักการสิทธิ์น้อยที่สุด การจำกัด blast radius เป็นข้อได้เปรียบด้านความปลอดภัยหลัก: Worker ที่ถูกฉีดที่พยายามใช้เครื่องมือนอกบทบาทจะล้มเหลวในการตรวจสอบสิทธิ์ Zone 2

Mixture-of-Agents (MoA) คืออะไร?

Mixture-of-Agents (MoA) ของ Wang และคณะจาก Together AI (arXiv มิถุนายน 2024) รวมผลลัพธ์จากอินสแตนซ์ LLM proposer หลายตัวผ่านชั้นการปรับปรุงแบบวนซ้ำ แก้ไขข้อผิดพลาดที่ไม่มีความสัมพันธ์กันข้ามอินสแตนซ์โมเดล บน AlpacaEval 2.0 MoA 3 ชั้นมี win rate 65.1% เทียบกับ 57.5% ของ GPT-4o ต้นทุนในโปรดักชั่นเป็นแบบคูณ: ต้นทุน API เพิ่มขึ้นประมาณ 12 เท่า

จะเลือกระหว่าง ReAct, Plan-and-Execute และ Reflexion อย่างไร?

การเลือกรูปแบบตามสามแกน: ระยะเวลางาน ความสามารถในการย้อนกลับของการกระทำ และระดับความเป็นอิสระ สำหรับงานสั้นที่มีการกระทำย้อนกลับได้ ReAct เป็นตัวเลือกที่ง่ายที่สุด สำหรับงานระยะกลาง Plan-and-Execute ลดการใช้ context window ลง 40-60% สำหรับงานที่ทำซ้ำซึ่งเอเจนต์สามารถเรียนรู้จากประวัติความล้มเหลว Reflexion เพิ่มการปรับปรุงประสิทธิภาพสะสม เพิ่ม Critic-Actor เมื่อการกระทำย้อนกลับไม่ได้ เพิ่ม Supervisor-Worker เมื่อขั้นตอนงานต่างๆ ต้องใช้ชุดเครื่องมือที่แตกต่างกันจริงๆ