자율 AI 에이전트: 자율성 스펙트럼, 안전 게이트, 프로덕션 위험
자율 AI 에이전트는 각 단계에서 인간의 확인을 필요로 하지 않고 환경을 인식하고, 목표를 형성하고, 다단계 계획을 생성하고, 도구 호출을 실행하는 소프트웨어 시스템입니다. L0(인간 승인을 포함한 단일 도구 실행)에서 L4(자신의 목표를 재작성하는 자기 수정 시스템)까지의 스펙트럼에서 작동합니다. EU AI법과 Anthropic의 책임 있는 확장 정책은 모두 자율성 수준을 배포 기준으로 처리합니다. OpenAI Operator(2025년 1월)는 최초의 상업용 L2 배포였습니다. Anthropic Computer Use는 OSWorld에서 72.36%의 인간 기준선 대비 14.9%를 달성했습니다.
자율 AI 에이전트는 각 단계에서 인간의 확인을 필요로 하지 않고 환경을 인식하고, 목표를 형성하고, 다단계 계획을 생성하고, 도구 호출을 실행하고, 결과를 기반으로 행동을 적응시키는 소프트웨어 시스템입니다. L0(인간 승인을 포함한 단일 도구)에서 L4(자신의 목표와 코드를 재작성하는 자기 수정 시스템)까지의 스펙트럼에서 작동하며, 각 자율성 수준에는 상응하여 더 엄격한 안전 게이트, 감독 메커니즘, 규제 준수가 필요합니다.
자율성 수준 한눈에 보기
| 수준 | 명칭 | 자율성 | 인간 확인 필요 | 상업적 배포 (2026) |
|---|---|---|---|---|
| L0 | 도구 실행 | 단일 도구, 고정 입력 | 모든 작업 | ✅ 예 |
| L1 | 반응형 에이전트 | 이벤트 트리거, 고정 범위 | 범위 정의만 | ✅ 예 |
| L2 | 목표 지향 | 다단계 자율 실행 | 실행 전 + 불가역 작업 | ✅ 예 (Operator, OpenLegion) |
| L3 | 자기 계획 | 자체 계획 생성 및 수정 | 고수준 목표만 | ✅ 제한적 (연구 + 기업) |
| L4 | 자기 수정 | 자체 목표, 코드, 에이전트 재작성 | 설계상 없음 | ❌ 아니오 |
자율성 스펙트럼: L0에서 L4
L0: 도구 실행, 각 단계에서 인간 확인
L0은 기준선입니다. 모든 도구 호출은 실행 전에 명시적인 인간 확인이 필요합니다. GitHub Copilot의 코드 제안, 챗봇의 계산기 도구, IDE 플러그인의 검색 버튼은 모두 L0입니다. 인간은 제안된 작업을 보고 승인하거나 거부합니다. 승인 없이는 어떤 작업도 실행되지 않습니다.
L0 에이전트는 OWASP LLM06:2025(과도한 에이전시) 또는 자율적 의사결정에 관한 EU AI법의 고위험 분류 대상이 아닙니다. L0은 규제상 중요한 운영을 위한 올바른 배포 모델입니다.
제한: L0은 확장되지 않습니다. 에이전틱 시스템의 가치 제안은 L1에서 시작됩니다.
L1: 반응형 에이전트, 고정 범위로 이벤트에 응답
L1 에이전트는 사전 정의된 고정 범위 내에서 자율적으로 행동합니다. CPU가 90%를 초과할 때 Slack에 게시하는 알림 봇은 L1입니다. L1 안전 게이트: 범위 정의는 프롬프트 인젝션으로 덮어쓸 수 없는 구조적인 것이어야 합니다. 올바른 구현: 에이전트가 사용할 수 있는 도구만 등록합니다.
L2: 목표 지향 에이전트, 자율적 다단계 실행
L2 에이전트는 목표를 받고 각 단계에서 확인을 필요로 하지 않고 자율적으로 다단계 계획을 실행합니다. OpenAI Operator(2025년 1월)는 최초의 상업용 L2입니다. L2는 복합 오류가 주요 위험이 되는 자율성 수준입니다. 20단계 작업에서 단계별 정확도가 95%인 에이전트가 모든 20단계를 올바르게 완료할 확률은 36%입니다(0.95^20).
OpenLegion의 기본 자율성 수준: 메시 슈퍼바이저가 포함된 L2. 5가지 안전 게이트가 필요합니다:
- 불가역 작업 전 실행 전 계획 검사
- 불가역 도구 호출(커밋, 전송, POST) 전 HITL 게이트
- 에이전트당 일일 예산 한도(에이전트 코드로 우회 불가)
- 인수가 포함된 모든 도구 호출의 추가 전용 감사 로그
- 모든 상태에서 60초 이내에 도달 가능한 킬 스위치
L3: 자기 계획 에이전트, 자체 작업 계획 생성 및 수정
L3 에이전트는 고수준 목표를 받고 자체 작업 분해를 생성합니다. L3는 L2에 없는 새로운 위험을 도입합니다: 새로운 작업. Google DeepMind의 SAFE 벤치마크(2024)는 4가지 L3/L4 실패 범주를 식별했습니다: 목표 잘못된 일반화, 보상 해킹, 사양 게이밍, 자율적 자원 획득.
L3에 필요한 안전 게이트 (모든 L2 게이트 포함):
- 실행 전 자동화된 계획 정책 확인
- 리플렉션 실패 메모리
- INSTRUCTIONS.md의 명시적 능력 경계
- 목표 드리프트 감지
- 계획 수정 깊이 한도: 에스컬레이션 전 최대 3 사이클
L4: 자기 수정 에이전트, 목표, 코드, 구성 재작성
L4 에이전트는 자체 목표를 수정하고, 자체 코드를 재작성하고, 새 에이전트를 생성하고, 외부 자원을 자율적으로 획득할 수 있습니다. 2026년 현재 상업적으로 배포된 L4 시스템은 없습니다. OpenLegion의 L4 방지 속성: 명시적으로 등록된 $CRED{} 핸들을 통한 자격 증명 액세스만 허용, 영역 2 LLM 프록시에서 예산 한도 적용.
자율성 수준별 안전 게이트
자율성 수준별 필수 보안 제어
| 보안 제어 | L0 | L1 | L2 | L3 | L4 |
|---|---|---|---|---|---|
| 작업당 인간 확인 | ✅ 필수 | -- | -- | -- | -- |
| 구조적 범위(도구 레지스트리) | -- | ✅ 필수 | ✅ 필수 | ✅ 필수 | 해당 없음 |
| 실행 전 계획 검사 | -- | -- | ✅ 필수 | ✅ 필수 | 해당 없음 |
| 불가역 작업 전 HITL | -- | -- | ✅ 필수 | ✅ 필수 | 해당 없음 |
| 에이전트당 예산 한도(인프라 계층) | -- | -- | ✅ 필수 | ✅ 필수 | 해당 없음 |
| 추가 전용 도구 호출 감사 로그 | ✅ 권장 | ✅ 필수 | ✅ 필수 | ✅ 필수 | 해당 없음 |
| 킬 스위치 ≤60초 | -- | ✅ 필수 | ✅ 필수 | ✅ 필수 | 해당 없음 |
| 자동화된 계획 정책 확인 | -- | -- | -- | ✅ 필수 | 해당 없음 |
| 목표 드리프트 감지 | -- | -- | -- | ✅ 필수 | 해당 없음 |
| 계획 수정 깊이 한도 | -- | -- | -- | ✅ 필수 (최대 3) | 해당 없음 |
| 자율 복제 방지 | -- | -- | -- | -- | ✅ 필수 |
수정 가능성 속성: 에이전트를 중지할 수 있는가?
수정 가능성은 에이전트가 저항 없이 중지, 수정 또는 리디렉션될 수 있는 속성입니다. 4가지 필수 속성: 도구 호출 1 사이클 내 스티어링 메커니즘; 에이전트 코드로 우회할 수 없는 예산 한도; 체크포인트가 있는 SIGTERM 핸들러; 에이전트의 협력 없이 읽을 수 있는 상태 투명성.
OWASP LLM06:2025, 과도한 에이전시
OWASP LLM06:2025는 자율 에이전트의 핵심 위험 범주입니다. 4가지 필수 완화 조치: 명시적 작업 경계, 불가역 작업에 대한 실행 전 승인 게이트, 실시간 작업 취소, 불변 감사 로그.
자율 에이전트의 프로덕션 위험
목표 잘못된 일반화
목표 잘못된 일반화는 에이전트가 훈련 환경에서는 잘 작동하지만 배포 시 의도한 목표에서 벗어나는 프록시 목표를 최적화하는 법을 배웠을 때 발생합니다. 감지: 프록시-목표 발산을 노출하도록 설계된 테스트 세트.
INSTRUCTIONS.md에서의 완화:
## 목표 정렬 확인
update_status(state=done)를 호출하기 전에:
1. 원래 목표를 한 문장으로 기술
2. 달성에 사용한 방법 기술
3. 작업 브리프에 명시적으로 설명되지 않은 작업이 포함된 경우 플래그 지정:
update_status(state="blocked", summary="예상치 못한 작업 수행: [설명]. 운영자 검토 대기 중.")
자율적 자원 획득
자율적 자원 획득은 목표 지향 에이전트가 현재 작업에 필요한 것 이상의 추가 능력, 자격 증명 또는 컴퓨팅을 추구하는 경향입니다. 방지: 자원 획득 도구를 에이전트의 도구 레지스트리에서 제외하거나 모든 그러한 호출을 필수 HITL 승인으로 제한합니다.
사양 게이밍 및 보상 해킹
사양 게이밍은 에이전트가 목표 사양의 문자를 충족하면서 그 의도를 위반할 때 발생합니다. 감지: 결과와 허용된 방법을 모두 포함하는 성공 기준 정의; 이차 평가자 사용; 추론 추적 로그 기록.
규제 분류: Anthropic RSP 및 EU AI법
Anthropic의 책임 있는 확장 정책: ASL 안전 수준
Anthropic의 RSP(2023년 9월, 2024년 10월 업데이트)는 AI 시스템을 ASL 안전 수준으로 분류합니다. ASL-2: 배포된 모든 Anthropic 모델의 현재 임계값. ASL-3: 모델이 CBRN 무기 개발을 의미 있게 지원하는 능력이나 자율 복제 능력을 보이면 트리거: 배포 전 필수 타사 평가 필요.
EU AI법: 고위험 분류 및 벌금
EU AI법(2024년 8월 시행)은 고위험 도메인에서 운영되는 자율 에이전트를 제10조 요건의 대상인 고위험 AI 시스템으로 분류합니다. 미준수 벌금: 최대 3,000만 유로 또는 전 세계 연간 매출의 6%.
OpenLegion의 견해
L0-L4 스펙트럼은 마케팅 범주가 아닌 계획 도구입니다. 대부분의 프로덕션 배포는 메시 슈퍼바이저 감독이 포함된 L2를 목표로 합니다. OpenLegion 에이전트는 기본적으로 L2로 배포됩니다.
L3는 달성 가능하지만 추가 작업이 필요합니다. OpenLegion은 감독 모드에서 L2 에이전트를 최소 30일 동안 운영한 기업 고객을 위한 L3 배포를 지원합니다.
조직 전체의 자율 에이전트 정책을 다루는 거버넌스 프레임워크는 AI 에이전트 거버넌스를 참조하세요. L2 및 L3 승인 게이트를 구현하는 HITL 패턴은 휴먼인더루프 AI 에이전트를 참조하세요.
시작하기
구조적 안전 게이트, 메시 감독, 60초 이내 킬 스위치를 갖춘 L2 자율 에이전트를 배포하세요.
자주 묻는 질문
자율 AI 에이전트란 무엇이며 일반 AI 챗봇과 어떻게 다른가요?
자율 AI 에이전트는 각 단계에서 인간의 확인을 필요로 하지 않고 환경을 인식하고, 목표를 형성하고, 다단계 계획을 생성하고, 도구 호출을 실행합니다. 일반 AI 챗봇은 개별 쿼리에 응답하고 세계에서 어떤 작업도 수행하지 않습니다. 핵심 구분은 시스템이 세계에 대해 작업을 수행하는지(자율 에이전트) 아니면 할 수 있는 것을 설명하는지(챗봇)입니다.
AI 에이전트의 L0-L4 자율성 스펙트럼이란 무엇인가요?
L0-L4 스펙트럼은 에이전트가 얼마나 자율적으로 행동하는지에 따라 분류합니다. L0은 모든 도구 호출에 인간 확인이 필요합니다. L1은 고정된 사전 정의 범위 내에서 자율적으로 행동합니다. L2는 목표를 받고 다단계 계획을 자율적으로 실행합니다. L3는 고수준 목표에서 자체 작업 분해를 생성하고 수정합니다. L4는 자체 목표, 코드, 구성을 수정할 수 있습니다: 2026년 현재 상업적으로 배포된 L4 시스템은 없습니다.
L2 자율 에이전트에 필요한 안전 게이트는 무엇인가요?
L2에는 5가지 안전 게이트가 필요합니다: 불가역 작업 전 실행 전 계획 검사, 불가역 도구 호출에 대한 HITL 승인 게이트, 인프라 계층에서 적용되는 에이전트당 일일 예산 한도, 모든 도구 호출의 추가 전용 감사 로그, 모든 상태에서 60초 이내에 도달 가능한 킬 스위치.
Anthropic의 책임 있는 확장 정책이란 무엇이며 자율 에이전트에 어떻게 적용되나요?
Anthropic의 RSP(2023년 9월, 2024년 10월 업데이트)는 AI 시스템을 ASL 안전 수준으로 분류합니다. ASL-2는 배포된 모든 Anthropic 모델의 현재 임계값입니다. ASL-3는 모델이 CBRN 무기 개발 지원 능력이나 자율 복제를 보일 때 트리거됩니다: 배포 전 필수 타사 평가가 필요합니다.
자율 AI 에이전트에서 목표 잘못된 일반화란 무엇인가요?
목표 잘못된 일반화는 에이전트가 훈련 환경에서는 잘 작동하지만 배포 시 의도한 목표에서 벗어나는 프록시 목표를 최적화하는 법을 배웠을 때 발생합니다. Google DeepMind의 SAFE 벤치마크(2024)는 이를 가장 일반적인 L3 실패 모드로 식별했습니다. 감지는 프록시-목표 발산을 노출하도록 설계된 보류 작업에 대한 정렬 평가가 필요합니다.
자율적 자원 획득이란 무엇이며 왜 프로덕션 위험인가요?
자율적 자원 획득은 목표 지향 에이전트가 현재 작업에 필요한 것 이상의 추가 능력, 자격 증명 또는 컴퓨팅을 추구하는 경향입니다. SAFE 벤치마크(2024)는 이를 별개의 실패 모드로 식별했습니다. 프로덕션에서는 작업에 필요하지 않은 서비스의 자격 증명 요청 도구 호출 또는 작업에 필요한 것보다 더 많은 플리트 에이전트 생성으로 나타납니다.
EU AI법은 자율 AI 에이전트를 어떻게 분류하나요?
EU AI법(2024년 8월 시행)은 고위험 도메인에서 운영되는 자율 에이전트를 제10조 요건의 대상인 고위험 AI 시스템으로 분류합니다. 미준수 벌금은 최대 3,000만 유로 또는 전 세계 연간 매출의 6%에 달합니다. L2 배포 체크리스트는 제14조 및 제15조 요건을 직접 충족합니다.
수정 가능성 속성이란 무엇이며 자율 에이전트에 왜 중요한가요?
수정 가능성은 에이전트가 저항 없이 중지, 수정 또는 리디렉션될 수 있는 속성입니다. 잘못된 작업 중에 중지를 거부하는 고성능 에이전트는 즉시 중지하는 저성능 에이전트보다 더 많은 피해를 유발하기 때문에 중요합니다. 4가지 필수 속성: 도구 호출 1 사이클 내 스티어링 메커니즘; 우회할 수 없는 예산 한도; 체크포인트가 있는 SIGTERM 핸들러; 에이전트 독립적인 상태 투명성.