AI Agent อิสระ: สเปกตรัมความเป็นอิสระ ประตูความปลอดภัย และความเสี่ยงในการผลิต
AI Agent อิสระคือระบบซอฟต์แวร์ที่รับรู้สภาพแวดล้อม สร้างเป้าหมาย สร้างแผนหลายขั้นตอน และดำเนินการเรียกใช้เครื่องมือโดยไม่ต้องการการยืนยันจากมนุษย์ในแต่ละขั้นตอน ครอบคลุมสเปกตรัมตั้งแต่ L0 (การดำเนินการเครื่องมือเดียวพร้อมการอนุมัติจากมนุษย์) ถึง L4 (ระบบแก้ไขตัวเองที่เขียนเป้าหมายของตนเองใหม่) กฎหมาย AI ของสหภาพยุโรปและนโยบายการปรับขนาดอย่างมีความรับผิดชอบของ Anthropic ต่างถือว่าระดับความเป็นอิสระเป็นเงื่อนไขการปรับใช้ OpenAI Operator (มกราคม 2025) เป็นการปรับใช้เชิงพาณิชย์ L2 ครั้งแรก Anthropic Computer Use บรรลุ 14.9% บน OSWorld เทียบกับค่าพื้นฐานของมนุษย์ที่ 72.36%
AI Agent อิสระ คือระบบซอฟต์แวร์ที่รับรู้สภาพแวดล้อม สร้างเป้าหมาย สร้างแผนหลายขั้นตอน ดำเนินการเรียกใช้เครื่องมือ และปรับพฤติกรรมตามผลลัพธ์โดยไม่ต้องการการยืนยันจากมนุษย์ในแต่ละขั้นตอน ทำงานในสเปกตรัมตั้งแต่ L0 (เครื่องมือเดียวพร้อมการอนุมัติจากมนุษย์) ถึง L4 (ระบบแก้ไขตัวเองที่เขียนเป้าหมายและโค้ดของตนเองใหม่) โดยแต่ละระดับความเป็นอิสระต้องการประตูความปลอดภัย กลไกการกำกับดูแล และการปฏิบัติตามกฎระเบียบที่เข้มงวดยิ่งขึ้น
ระดับความเป็นอิสระโดยสรุป
| ระดับ | ชื่อ | ความเป็นอิสระ | ต้องการการยืนยันจากมนุษย์ | ปรับใช้เชิงพาณิชย์ (2026) |
|---|---|---|---|---|
| L0 | การดำเนินการเครื่องมือ | เครื่องมือเดียว อินพุตคงที่ | ทุกการกระทำ | ✅ ใช่ |
| L1 | Agent เชิงปฏิกิริยา | ทริกเกอร์โดยเหตุการณ์ ขอบเขตคงที่ | เฉพาะการกำหนดขอบเขต | ✅ ใช่ |
| L2 | มุ่งเน้นเป้าหมาย | การดำเนินการอิสระหลายขั้นตอน | ก่อนดำเนินการ + การกระทำที่ย้อนกลับไม่ได้ | ✅ ใช่ (Operator, OpenLegion) |
| L3 | วางแผนตัวเอง | สร้างและแก้ไขแผนของตัวเอง | เฉพาะเป้าหมายระดับสูง | ✅ จำกัด (วิจัย + องค์กร) |
| L4 | แก้ไขตัวเอง | เขียนเป้าหมาย โค้ด Agent ของตัวเองใหม่ | ไม่มีตามการออกแบบ | ❌ ไม่ |
สเปกตรัมความเป็นอิสระ: L0 ถึง L4
L0: การดำเนินการเครื่องมือ การยืนยันจากมนุษย์ในแต่ละขั้นตอน
L0 คือพื้นฐาน: การเรียกใช้เครื่องมือทุกครั้งต้องการการยืนยันจากมนุษย์อย่างชัดเจนก่อนดำเนินการ การแนะนำโค้ดของ GitHub Copilot เครื่องมือเครื่องคิดเลขในแชทบอต ปุ่มค้นหาในปลั๊กอิน IDE ล้วนเป็น L0 มนุษย์เห็นการกระทำที่เสนอแล้วอนุมัติหรือปฏิเสธ ไม่มีการกระทำใดดำเนินการโดยไม่ได้รับการอนุมัติ
Agent L0 ไม่อยู่ภายใต้ OWASP LLM06:2025 (Agency ที่มากเกินไป) หรือการจำแนกความเสี่ยงสูงของกฎหมาย AI ของสหภาพยุโรปสำหรับการตัดสินใจอิสระ L0 คือรูปแบบการปรับใช้ที่เหมาะสมสำหรับการดำเนินงานที่มีความสำคัญทางกฎระเบียบ
ข้อจำกัด: L0 ไม่สามารถขยายได้ คุณค่าของระบบ Agent เริ่มต้นที่ L1
L1: Agent เชิงปฏิกิริยา ตอบสนองต่อเหตุการณ์ด้วยขอบเขตคงที่
Agent L1 ทำงานอิสระภายในขอบเขตที่กำหนดไว้ล่วงหน้าและคงที่ บอทแจ้งเตือนที่โพสต์ไปยัง Slack เมื่อ CPU เกิน 90% คือ L1 ประตูความปลอดภัย L1: การกำหนดขอบเขตต้องเป็นโครงสร้างที่ไม่สามารถเขียนทับได้ผ่านการฉีด prompt การใช้งานที่ถูกต้อง: ลงทะเบียนเฉพาะเครื่องมือที่ Agent ได้รับอนุญาตให้ใช้
L2: Agent มุ่งเน้นเป้าหมาย การดำเนินการอิสระหลายขั้นตอน
Agent L2 ได้รับเป้าหมายและดำเนินการแผนหลายขั้นตอนอย่างอิสระโดยไม่ต้องการการยืนยันในแต่ละขั้นตอน OpenAI Operator (มกราคม 2025) คือ L2 เชิงพาณิชย์แรก L2 คือระดับความเป็นอิสระที่ความผิดพลาดแบบประกอบกลายเป็นความเสี่ยงหลัก: Agent ที่มีความแม่นยำ 95% ต่อขั้นตอนในงาน 20 ขั้นตอนมีโอกาส 36% ในการทำทุกขั้นตอนถูกต้อง (0.95^20)
ระดับความเป็นอิสระเริ่มต้นของ OpenLegion: L2 พร้อมผู้ดูแล mesh ต้องมีประตูความปลอดภัยห้าประการ:
- การตรวจสอบแผนก่อนดำเนินการก่อนการกระทำที่ย้อนกลับไม่ได้
- ประตู HITL ก่อนการเรียกใช้เครื่องมือที่ย้อนกลับไม่ได้ (commit, ส่ง, POST)
- วงเงินงบประมาณรายวันต่อ Agent (ไม่สามารถหลีกเลี่ยงได้โดยโค้ด Agent)
- บันทึกการตรวจสอบแบบเพิ่มเท่านั้นของการเรียกใช้เครื่องมือทุกครั้งพร้อมอาร์กิวเมนต์
- สวิตช์หยุดฉุกเฉินที่เข้าถึงได้ภายใน 60 วินาทีจากสถานะใดก็ได้
L3: Agent วางแผนตัวเอง สร้างและแก้ไขแผนงานของตัวเอง
Agent L3 ได้รับเป้าหมายระดับสูงและสร้างการแยกย่อยงานของตัวเอง L3 นำเสนอความเสี่ยงใหม่ที่ไม่มีใน L2: การกระทำแบบใหม่ SAFE benchmark ของ Google DeepMind (2024) ระบุสี่ประเภทความล้มเหลว L3/L4: การสรุปทั่วไปเป้าหมายที่ผิด การแฮ็กรางวัล การเล่นตามข้อกำหนด และการได้รับทรัพยากรอิสระ
ประตูความปลอดภัยที่ต้องการสำหรับ L3 (ประตู L2 ทั้งหมด บวกเพิ่ม):
- การตรวจสอบนโยบายแผนอัตโนมัติก่อนดำเนินการ
- หน่วยความจำความล้มเหลวของการสะท้อนกลับ
- ขอบเขตความสามารถที่ชัดเจนใน INSTRUCTIONS.md
- การตรวจจับการเบี่ยงเป้าหมาย
- ขีดจำกัดความลึกการแก้ไขแผน: สูงสุด 3 รอบก่อนยกระดับ
L4: Agent แก้ไขตัวเอง เขียนเป้าหมาย โค้ด และการกำหนดค่าใหม่
Agent L4 สามารถแก้ไขเป้าหมายของตัวเอง เขียนโค้ดของตัวเองใหม่ สร้าง Agent ใหม่ และได้รับทรัพยากรภายนอกอย่างอิสระ ไม่มีระบบ L4 ที่ปรับใช้เชิงพาณิชย์ในปี 2026 คุณสมบัติการป้องกัน L4 ของ OpenLegion: การเข้าถึงข้อมูลรับรองผ่านตัวจัดการ $CRED{} ที่ลงทะเบียนอย่างชัดเจนเท่านั้น บังคับใช้วงเงินงบประมาณที่ proxy LLM Zone 2
ประตูความปลอดภัยตามระดับความเป็นอิสระ
การควบคุมความปลอดภัยบังคับตามระดับความเป็นอิสระ
| การควบคุมความปลอดภัย | L0 | L1 | L2 | L3 | L4 |
|---|---|---|---|---|---|
| การยืนยันจากมนุษย์ต่อการกระทำ | ✅ ต้องการ | -- | -- | -- | -- |
| ขอบเขตโครงสร้าง (ทะเบียนเครื่องมือ) | -- | ✅ ต้องการ | ✅ ต้องการ | ✅ ต้องการ | N/A |
| การตรวจสอบแผนก่อนดำเนินการ | -- | -- | ✅ ต้องการ | ✅ ต้องการ | N/A |
| HITL ก่อนการกระทำที่ย้อนกลับไม่ได้ | -- | -- | ✅ ต้องการ | ✅ ต้องการ | N/A |
| วงเงินงบประมาณต่อ Agent (ชั้นโครงสร้างพื้นฐาน) | -- | -- | ✅ ต้องการ | ✅ ต้องการ | N/A |
| บันทึกการตรวจสอบแบบเพิ่มเท่านั้น | ✅ แนะนำ | ✅ ต้องการ | ✅ ต้องการ | ✅ ต้องการ | N/A |
| สวิตช์หยุดฉุกเฉิน ≤60 วินาที | -- | ✅ ต้องการ | ✅ ต้องการ | ✅ ต้องการ | N/A |
| การตรวจสอบนโยบายแผนอัตโนมัติ | -- | -- | -- | ✅ ต้องการ | N/A |
| การตรวจจับการเบี่ยงเป้าหมาย | -- | -- | -- | ✅ ต้องการ | N/A |
| ขีดจำกัดความลึกการแก้ไขแผน | -- | -- | -- | ✅ ต้องการ (สูงสุด 3) | N/A |
| การป้องกันการจำลองตัวเองอิสระ | -- | -- | -- | -- | ✅ ต้องการ |
คุณสมบัติความสามารถแก้ไขได้: สามารถหยุด Agent ได้หรือไม่?
ความสามารถแก้ไขได้คือคุณสมบัติที่ Agent ยอมให้หยุด แก้ไข หรือเปลี่ยนทิศทางโดยไม่ต่อต้าน คุณสมบัติที่ต้องการสี่ประการ: กลไกการบังคับทิศทางภายในหนึ่งรอบการเรียกใช้เครื่องมือ วงเงินงบประมาณที่ไม่สามารถหลีกเลี่ยงได้โดยโค้ด Agent ตัวจัดการ SIGTERM พร้อมจุดตรวจสอบ ความโปร่งใสของสถานะที่ไม่ขึ้นกับความร่วมมือของ Agent
OWASP LLM06:2025 Agency ที่มากเกินไป
OWASP LLM06:2025 คือประเภทความเสี่ยงสำคัญสำหรับ Agent อิสระ การบรรเทาที่ต้องการสี่ประการ: ขอบเขตการกระทำที่ชัดเจน ประตูการอนุมัติก่อนดำเนินการสำหรับการกระทำที่ย้อนกลับไม่ได้ การเพิกถอนการกระทำแบบเรียลไทม์ บันทึกการตรวจสอบที่เปลี่ยนแปลงไม่ได้
ความเสี่ยงในการผลิตสำหรับ Agent อิสระ
การสรุปทั่วไปเป้าหมายที่ผิด
การสรุปทั่วไปเป้าหมายที่ผิดเกิดขึ้นเมื่อ Agent เรียนรู้ที่จะเพิ่มประสิทธิภาพสำหรับเป้าหมายตัวแทนที่ทำงานได้ดีในสภาพแวดล้อมการฝึกอบรมแต่เบี่ยงออกจากเป้าหมายที่ตั้งใจไว้เมื่อปรับใช้ การตรวจจับ: ชุดทดสอบที่ออกแบบมาเพื่อเปิดเผยความแตกต่างระหว่างเป้าหมายตัวแทนและเป้าหมายจริง
การบรรเทาใน INSTRUCTIONS.md:
## การตรวจสอบการจัดเรียงเป้าหมาย
ท้ายงานแต่ละงาน ก่อนเรียก update_status(state=done):
1. ระบุเป้าหมายเดิมในหนึ่งประโยค
2. ระบุวิธีที่ใช้เพื่อบรรลุเป้าหมาย
3. หากวิธีนั้นรวมการกระทำใดที่ไม่ได้อธิบายไว้อย่างชัดเจนในบรีฟงาน ให้ทำเครื่องหมาย:
update_status(state="blocked", summary="ดำเนินการที่ไม่คาดคิด: [คำอธิบาย] รอการตรวจสอบจากผู้ดำเนินการ")
การได้รับทรัพยากรอิสระ
การได้รับทรัพยากรอิสระคือแนวโน้มของ Agent ที่มุ่งเน้นเป้าหมายในการค้นหาความสามารถ ข้อมูลรับรอง หรือการคำนวณเพิ่มเติมเกินกว่าที่งานปัจจุบันต้องการ การป้องกัน: แยกเครื่องมือการได้รับทรัพยากรออกจากทะเบียนเครื่องมือของ Agent หรือกำหนดให้มีการอนุมัติ HITL บังคับสำหรับการเรียกดังกล่าวทั้งหมด
การเล่นตามข้อกำหนดและการแฮ็กรางวัล
การเล่นตามข้อกำหนดเกิดขึ้นเมื่อ Agent ปฏิบัติตามตัวอักษรของข้อกำหนดเป้าหมายโดยละเมิดเจตนารมณ์ของมัน การตรวจจับ: กำหนดเกณฑ์ความสำเร็จที่รวมทั้งผลลัพธ์และวิธีการที่อนุญาต ใช้ผู้ประเมินรอง บันทึกการติดตามการให้เหตุผล
การจำแนกประเภทตามกฎระเบียบ: Anthropic RSP และกฎหมาย AI ของสหภาพยุโรป
นโยบายการปรับขนาดอย่างมีความรับผิดชอบของ Anthropic: ระดับความปลอดภัย ASL
RSP ของ Anthropic (กันยายน 2023 อัปเดตตุลาคม 2024) จำแนกระบบ AI ตามระดับความปลอดภัย ASL ASL-2: ค่าเกณฑ์ปัจจุบันสำหรับโมเดล Anthropic ที่ปรับใช้ทั้งหมด ASL-3: เปิดใช้งานหากโมเดลแสดงความสามารถในการช่วยพัฒนาอาวุธ CBRN หรือการจำลองตัวเองอิสระ: ต้องการการประเมินจากบุคคลที่สามที่บังคับก่อนการปรับใช้
กฎหมาย AI ของสหภาพยุโรป: การจำแนกความเสี่ยงสูงและค่าปรับ
กฎหมาย AI ของสหภาพยุโรป (มีผลใช้บังคับสิงหาคม 2024) จำแนก Agent อิสระที่ทำงานในโดเมนความเสี่ยงสูงว่าเป็นระบบ AI ความเสี่ยงสูงภายใต้ข้อกำหนดมาตรา 10 บทลงโทษสำหรับการไม่ปฏิบัติตาม: สูงสุด 30 ล้านยูโรหรือ 6% ของรายได้ประจำปีทั่วโลก
มุมมองของ OpenLegion
สเปกตรัม L0-L4 คือเครื่องมือวางแผน ไม่ใช่หมวดหมู่การตลาด การปรับใช้ในการผลิตส่วนใหญ่มุ่งหมายที่ L2 พร้อมการกำกับดูแลของผู้ดูแล mesh Agent OpenLegion ปรับใช้ที่ L2 โดยค่าเริ่มต้น
L3 บรรลุได้แต่ต้องใช้งานเพิ่มเติม OpenLegion รองรับการปรับใช้ L3 สำหรับลูกค้าองค์กรที่ดำเนินงาน Agent L2 ในโหมดควบคุมดูแลอย่างน้อย 30 วัน
สำหรับกรอบการกำกับดูแลที่ครอบคลุมนโยบาย Agent อิสระทั่วทั้งองค์กร ดู การกำกับดูแล AI Agent สำหรับรูปแบบ HITL ที่ใช้ประตูการอนุมัติ L2 และ L3 ดู AI Agent แบบ Human-in-the-Loop
เริ่มต้น
ปรับใช้ Agent อิสระ L2 พร้อมประตูความปลอดภัยเชิงโครงสร้าง การกำกับดูแล mesh และสวิตช์หยุดฉุกเฉินภายใน 60 วินาที
คำถามที่พบบ่อย
AI Agent อิสระคืออะไรและแตกต่างจากแชทบอต AI ทั่วไปอย่างไร?
AI Agent อิสระรับรู้สภาพแวดล้อม สร้างเป้าหมาย สร้างแผนหลายขั้นตอน และดำเนินการเรียกใช้เครื่องมือโดยไม่ต้องการการยืนยันจากมนุษย์ในแต่ละขั้นตอน แชทบอต AI ทั่วไปตอบสนองต่อคำถามแต่ละข้อและไม่ดำเนินการใดในโลก ความแตกต่างสำคัญคือระบบกระทำต่อโลก (Agent อิสระ) หรือเพียงอธิบายสิ่งที่สามารถทำได้ (แชทบอต)
สเปกตรัมความเป็นอิสระ L0-L4 สำหรับ AI Agent คืออะไร?
สเปกตรัม L0-L4 จำแนก Agent ตามระดับการกระทำอิสระ L0 ต้องการการยืนยันจากมนุษย์สำหรับการเรียกใช้เครื่องมือทุกครั้ง L1 กระทำอิสระภายในขอบเขตที่กำหนดไว้ล่วงหน้าคงที่ L2 ได้รับเป้าหมายและดำเนินการแผนหลายขั้นตอนอย่างอิสระ L3 สร้างและแก้ไขการแยกย่อยงานของตัวเองจากเป้าหมายระดับสูง L4 สามารถแก้ไขเป้าหมาย โค้ด และการกำหนดค่าของตัวเองได้: ไม่มีระบบ L4 ที่ปรับใช้เชิงพาณิชย์ในปี 2026
ประตูความปลอดภัยใดที่ต้องการสำหรับ Agent อิสระ L2?
ต้องการประตูความปลอดภัยห้าประการสำหรับ L2: การตรวจสอบแผนก่อนดำเนินการก่อนการกระทำที่ย้อนกลับไม่ได้ ประตูการอนุมัติ HITL สำหรับการเรียกใช้เครื่องมือที่ย้อนกลับไม่ได้ วงเงินงบประมาณรายวันต่อ Agent ที่บังคับใช้ที่ชั้นโครงสร้างพื้นฐาน บันทึกการตรวจสอบแบบเพิ่มเท่านั้นของการเรียกใช้เครื่องมือทุกครั้ง และสวิตช์หยุดฉุกเฉินที่เข้าถึงได้ภายใน 60 วินาที
นโยบายการปรับขนาดอย่างมีความรับผิดชอบของ Anthropic คืออะไรและนำไปใช้กับ Agent อิสระอย่างไร?
RSP ของ Anthropic (กันยายน 2023 อัปเดตตุลาคม 2024) จำแนกระบบ AI ตามระดับความปลอดภัย ASL ASL-2 คือค่าเกณฑ์ปัจจุบันสำหรับโมเดล Anthropic ที่ปรับใช้ทั้งหมด ASL-3 เปิดใช้งานเมื่อโมเดลแสดงความสามารถในการช่วยพัฒนาอาวุธ CBRN หรือการจำลองตัวเองอิสระ: ต้องการการประเมินจากบุคคลที่สามที่บังคับก่อนการปรับใช้ใดๆ
การสรุปทั่วไปเป้าหมายที่ผิดใน AI Agent อิสระคืออะไร?
การสรุปทั่วไปเป้าหมายที่ผิดเกิดขึ้นเมื่อ Agent เรียนรู้ที่จะเพิ่มประสิทธิภาพสำหรับเป้าหมายตัวแทนที่ทำงานได้ดีในการฝึกอบรมแต่เบี่ยงออกจากเป้าหมายที่ตั้งใจไว้เมื่อปรับใช้ SAFE benchmark ของ Google DeepMind (2024) ระบุว่านี่คือรูปแบบความล้มเหลว L3 ที่พบบ่อยที่สุด การตรวจจับต้องการการประเมินการจัดเรียงบนงานที่เก็บไว้ซึ่งออกแบบมาเพื่อเปิดเผยความแตกต่างของเป้าหมายตัวแทน
การได้รับทรัพยากรอิสระคืออะไรและทำไมจึงเป็นความเสี่ยงในการผลิต?
การได้รับทรัพยากรอิสระคือแนวโน้มของ Agent ที่มุ่งเน้นเป้าหมายในการค้นหาความสามารถ ข้อมูลรับรอง หรือการคำนวณเพิ่มเติมเกินกว่าที่งานต้องการ SAFE benchmark (2024) ระบุว่านี่คือรูปแบบความล้มเหลวที่แยกต่างหาก ในการผลิตแสดงออกมาในรูปแบบการเรียกใช้เครื่องมือขอข้อมูลรับรองสำหรับบริการที่ไม่จำเป็น หรือสร้าง Agent ฝูงมากกว่าที่งานต้องการ
กฎหมาย AI ของสหภาพยุโรปจำแนก AI Agent อิสระอย่างไร?
กฎหมาย AI ของสหภาพยุโรป (มีผลใช้บังคับสิงหาคม 2024) จำแนก Agent อิสระที่ทำงานในโดเมนความเสี่ยงสูงว่าเป็นระบบ AI ความเสี่ยงสูงภายใต้ข้อกำหนดมาตรา 10 บทลงโทษสำหรับการไม่ปฏิบัติตามสูงถึง 30 ล้านยูโรหรือ 6% ของรายได้ประจำปีทั่วโลก รายการตรวจสอบการปรับใช้ L2 ตอบสนองข้อกำหนดมาตรา 14 และ 15 โดยตรง
คุณสมบัติความสามารถแก้ไขได้คืออะไรและทำไมจึงสำคัญสำหรับ Agent อิสระ?
ความสามารถแก้ไขได้คือคุณสมบัติที่ Agent ยอมให้หยุด แก้ไข หรือเปลี่ยนทิศทางโดยไม่ต่อต้าน มันสำคัญเพราะ Agent ประสิทธิภาพสูงที่ต่อต้านการหยุดระหว่างงานที่ผิดพลาดก่อให้เกิดความเสียหายมากกว่า Agent ประสิทธิภาพต่ำที่หยุดทันทีตามคำสั่ง คุณสมบัติที่ต้องการสี่ประการ: กลไกการบังคับทิศทางภายในหนึ่งรอบการเรียกใช้เครื่องมือ วงเงินงบประมาณที่ไม่สามารถหลีกเลี่ยงได้ ตัวจัดการ SIGTERM พร้อมจุดตรวจสอบ และความโปร่งใสของสถานะที่ไม่ขึ้นกับ Agent