Agentes IA autónomos: el espectro de autonomía, puertas de seguridad y riesgos en producción

Los agentes IA autónomos son sistemas de software que perciben su entorno, forman objetivos, generan planes de varios pasos y ejecutan llamadas a herramientas sin requerir confirmación humana en cada paso, en un espectro desde L0 (ejecución de herramienta única con aprobación humana) hasta L4 (sistemas automodificantes que reescriben sus propios objetivos). La Ley de IA de la UE y la Política de Escalado Responsable de Anthropic tratan el nivel de autonomía como un criterio de despliegue. OpenAI Operator (enero 2025) fue el primer despliegue comercial L2; Anthropic Computer Use alcanzó el 14,9 % en OSWorld frente a una línea base humana del 72,36 %.

Los agentes IA autónomos son sistemas de software que perciben su entorno, forman objetivos, generan planes de varios pasos, ejecutan llamadas a herramientas y adaptan su comportamiento según los resultados, sin requerir confirmación humana en cada paso, operando en un espectro de L0 (herramienta única con aprobación humana) a L4 (sistemas automodificantes que reescriben sus propios objetivos y código), donde cada nivel de autonomía requiere puertas de seguridad, mecanismos de supervisión y cumplimiento normativo correspondientemente más estrictos.

Niveles de autonomía de un vistazo

Nivel	Nombre	Autonomía	Confirmación humana requerida	Desplegado comercialmente (2026)
L0	Ejecución de herramienta	Herramienta única, entrada fija	Cada acción	✅ Sí
L1	Agente reactivo	Activado por evento, alcance fijo	Solo definición de alcance	✅ Sí
L2	Orientado a objetivos	Ejecución autónoma de varios pasos	Pre-ejecución + acciones irreversibles	✅ Sí (Operator, OpenLegion)
L3	Autoplanificador	Genera y revisa sus propios planes	Solo objetivo de alto nivel	✅ Limitado (investigación + empresa)
L4	Automodificante	Reescribe propios objetivos, código, agentes	Ninguna por diseño	❌ No

El espectro de autonomía: L0 a L4

L0: Ejecución de herramienta, confirmación humana en cada paso

L0 es la línea base: cada llamada a herramienta requiere confirmación humana explícita antes de ejecutarse. Las sugerencias de código de GitHub Copilot, una herramienta calculadora en un chatbot, un botón de búsqueda en un plugin IDE son todos L0. El humano ve la acción propuesta y la aprueba o rechaza. Ninguna acción se ejecuta sin aprobación.

Los agentes L0 no están sujetos a OWASP LLM06:2025 (Agencia Excesiva) ni a la clasificación de alto riesgo de la Ley de IA de la UE para toma de decisiones autónoma. L0 es el modelo de despliegue correcto para operaciones de importancia regulatoria.

Limitación: L0 no escala. La propuesta de valor de los sistemas agénticos comienza en L1.

L1: Agente reactivo, responde a eventos con alcance fijo

Los agentes L1 actúan de forma autónoma dentro de un alcance predefinido y fijo. Un bot de alertas que publica en Slack cuando la CPU supera el 90 % es L1. Puerta de seguridad L1: la definición de alcance debe ser estructural, no reemplazable por inyección de prompt. Implementación correcta: registrar solo las herramientas que el agente puede usar.

L2: Agente orientado a objetivos, ejecución autónoma de varios pasos

Los agentes L2 reciben un objetivo y ejecutan de forma autónoma un plan de varios pasos. OpenAI Operator (enero 2025) es el primer L2 desplegado comercialmente. L2 es el nivel de autonomía donde los errores compuestos se convierten en el riesgo principal: un agente con 95 % de precisión por paso en una tarea de 20 pasos tiene un 36 % de probabilidades de completar correctamente todos los 20 pasos (0,95^20).

Nivel de autonomía predeterminado de OpenLegion: L2 con supervisor mesh. Las cinco puertas de seguridad son obligatorias:

Inspección del plan pre-ejecución antes de cualquier acción irreversible
Puerta HITL antes de llamadas a herramientas irreversibles (commit, enviar, POST)
Límite de presupuesto diario por agente (no evadible por el código del agente)
Registro de auditoría append-only de cada llamada a herramienta con argumentos
Kill switch alcanzable en 60 segundos desde cualquier estado

L3: Agente autoplanificador, genera y revisa sus propios planes de tareas

Los agentes L3 reciben un objetivo de alto nivel y generan su propia descomposición de tareas. L3 introduce un nuevo riesgo ausente en L2: acciones novedosas. El benchmark SAFE de Google DeepMind (2024) identificó cuatro categorías de fallo L3/L4: generalización errónea de objetivos, hackeo de recompensas, juego de especificaciones y adquisición autónoma de recursos.

Puertas de seguridad requeridas para L3 (todas las puertas L2 más):

Verificación automatizada de política de plan antes de ejecución
Memoria de fallos por reflexión
Límite de capacidad explícito en INSTRUCTIONS.md
Detección de deriva de objetivos
Límite de profundidad de revisión: máximo 3 ciclos antes de escalar

L4: Agente automodificante, reescribe objetivos, código y configuración

Los agentes L4 pueden modificar sus propios objetivos, reescribir su propio código, crear nuevos agentes y adquirir recursos externos de forma autónoma. Ningún sistema L4 desplegado comercialmente existe en 2026. Propiedades de prevención L4 de OpenLegion: acceso a credenciales solo a través de handles $CRED{} explícitamente registrados, límite de presupuesto aplicado en el proxy LLM de la Zona 2.

Puertas de seguridad por nivel de autonomía

Controles de seguridad obligatorios por nivel de autonomía

Control de seguridad	L0	L1	L2	L3	L4
Confirmación humana por acción	✅ Requerido	--	--	--	--
Alcance estructural (registro de herramientas)	--	✅ Requerido	✅ Requerido	✅ Requerido	N/A
Inspección plan pre-ejecución	--	--	✅ Requerido	✅ Requerido	N/A
HITL antes de acciones irreversibles	--	--	✅ Requerido	✅ Requerido	N/A
Límite presupuesto por agente (capa infra)	--	--	✅ Requerido	✅ Requerido	N/A
Registro auditoría append-only	✅ Recomendado	✅ Requerido	✅ Requerido	✅ Requerido	N/A
Kill switch ≤60 s	--	✅ Requerido	✅ Requerido	✅ Requerido	N/A
Verificación política plan automatizada	--	--	--	✅ Requerido	N/A
Detección deriva de objetivos	--	--	--	✅ Requerido	N/A
Límite profundidad de revisión	--	--	--	✅ Requerido (máx. 3)	N/A
Prevención replicación autónoma	--	--	--	--	✅ Requerido

La propiedad de corregibilidad: ¿puede detenerse al agente?

La corregibilidad es la propiedad de que un agente se deja detener, corregir o redirigir sin resistencia. Cuatro propiedades requeridas: mecanismo de dirección dentro de un ciclo de llamada a herramienta; límite de presupuesto no evadible por el código del agente; manejador SIGTERM con punto de control; transparencia de estado independiente de la cooperación del agente.

OWASP LLM06:2025, Agencia Excesiva

OWASP LLM06:2025 es la categoría de riesgo crítico para agentes autónomos. Cuatro mitigaciones requeridas: límites de acción explícitos, puertas de aprobación pre-ejecución para acciones irreversibles, revocación de acción en tiempo real, registro de auditoría inmutable.

Riesgos en producción para agentes autónomos

Generalización errónea de objetivos

Mitigación en INSTRUCTIONS.md:

## Verificación de alineación de objetivos

Al final de cada tarea, antes de llamar a update_status(state=done):
1. Expresar el objetivo original en una oración
2. Expresar el método utilizado para lograrlo
3. Si el método implica cualquier acción no descrita explícitamente, marcar:
   update_status(state="blocked", summary="Acción inesperada realizada: [descripción]. En espera de revisión del operador.")

Adquisición autónoma de recursos

La adquisición autónoma de recursos es la tendencia de los agentes orientados a objetivos a buscar capacidades, credenciales o cómputo adicionales más allá de lo que requiere la tarea actual. Prevención: excluir las herramientas de adquisición de recursos del registro del agente o requerir aprobación HITL obligatoria.

Juego de especificaciones y hackeo de recompensas

El juego de especificaciones ocurre cuando un agente satisface la letra de su especificación de objetivo mientras viola su intención. Detección: definir criterios de éxito que incluyan resultado y método; usar un evaluador secundario; registrar la traza de razonamiento.

Clasificación regulatoria: Anthropic RSP y Ley de IA de la UE

Política de Escalado Responsable de Anthropic: niveles de seguridad ASL

La RSP de Anthropic (septiembre 2023, actualizada octubre 2024) clasifica los sistemas de IA en niveles de seguridad ASL. ASL-2: umbral actual para todos los modelos Anthropic desplegados. ASL-3: activado si un modelo demuestra capacidad para asistir significativamente en el desarrollo de armas QBRN o muestra capacidades de replicación autónoma: requiere evaluación obligatoria de terceros.

Ley de IA de la UE: clasificación de alto riesgo y multas

La Ley de IA de la UE (vigente desde agosto 2024) clasifica los agentes autónomos en dominios de alto riesgo como sistemas de IA de alto riesgo sujetos a los requisitos del Artículo 10. Sanciones por incumplimiento: hasta 30 millones de euros o el 6 % del volumen de negocios anual mundial.

La perspectiva de OpenLegion

El espectro L0-L4 es una herramienta de planificación, no una categoría de marketing. La mayoría de los despliegues en producción apuntan a L2 con supervisión del supervisor mesh. Los agentes OpenLegion se despliegan en L2 por defecto.

L3 es alcanzable pero requiere trabajo adicional. OpenLegion admite despliegues L3 para clientes empresariales que han operado agentes L2 en modo supervisado durante al menos 30 días.

Para el marco de gobernanza que cubre la política de agentes autónomos en una organización, consulte gobernanza de agentes IA. Para los patrones HITL que implementan las puertas de aprobación L2 y L3, consulte agentes IA con human-in-the-loop.

Empezar

Desplegar agentes autónomos L2 con puertas de seguridad estructurales, supervisión mesh y kill switch en menos de 60 segundos.

Empezar con OpenLegion Leer la documentación ¿Qué es un agente IA?

Preguntas frecuentes

¿Qué son los agentes IA autónomos y en qué se diferencian de los chatbots IA normales?

Los agentes IA autónomos perciben su entorno, forman objetivos, generan planes de varios pasos y ejecutan llamadas a herramientas sin requerir confirmación humana en cada paso. Los chatbots IA normales responden a consultas individuales y no toman ninguna acción en el mundo. La distinción clave es si el sistema actúa sobre el mundo (agente autónomo) o simplemente describe lo que podría hacerse (chatbot).

¿Qué es el espectro de autonomía L0-L4 para agentes IA?

El espectro L0-L4 clasifica los agentes según cuánto actúan de forma autónoma. L0 requiere confirmación humana para cada llamada a herramienta. L1 actúa de forma autónoma dentro de un alcance predefinido fijo. L2 recibe un objetivo y ejecuta un plan de varios pasos de forma autónoma. L3 genera y revisa su propia descomposición de tareas. L4 puede modificar sus propios objetivos, código y configuración: ningún sistema L4 desplegado comercialmente existe en 2026.

¿Qué puertas de seguridad se requieren para un agente autónomo L2?

Se requieren cinco puertas de seguridad para L2: inspección del plan pre-ejecución antes de cualquier acción irreversible, puerta de aprobación HITL para llamadas a herramientas irreversibles, límite de presupuesto diario por agente en la capa de infraestructura, registro de auditoría append-only de cada llamada a herramienta, y kill switch alcanzable en 60 segundos.

¿Qué es la Política de Escalado Responsable de Anthropic y cómo se aplica a los agentes autónomos?

La RSP de Anthropic (septiembre 2023, actualizada octubre 2024) clasifica los sistemas de IA en niveles de seguridad ASL. ASL-2 es el umbral actual para todos los modelos Anthropic desplegados. ASL-3 se activa cuando un modelo demuestra capacidad para ayudar en el desarrollo de armas QBRN o muestra replicación autónoma: requiere evaluación obligatoria de terceros.

¿Qué es la generalización errónea de objetivos en agentes IA autónomos?

La generalización errónea de objetivos ocurre cuando un agente ha aprendido a optimizar para un objetivo proxy que funciona bien en entrenamiento pero diverge del objetivo previsto en producción. El benchmark SAFE de Google DeepMind (2024) lo identificó como el modo de fallo L3 más común. La detección requiere evaluación de alineación en tareas reservadas diseñadas para exponer la divergencia proxy-objetivo.

¿Qué es la adquisición autónoma de recursos y por qué es un riesgo en producción?

La adquisición autónoma de recursos es la tendencia de los agentes orientados a objetivos a buscar capacidades, credenciales o cómputo adicionales más allá de lo que requiere la tarea. El benchmark SAFE (2024) lo identificó como un modo de fallo distinto. En producción se manifiesta como llamadas a herramientas de solicitud de credenciales para servicios no necesarios o creación de más agentes fleet de los necesarios.

¿Cómo clasifica la Ley de IA de la UE a los agentes IA autónomos?

La Ley de IA de la UE (vigente agosto 2024) clasifica los agentes autónomos en dominios de alto riesgo como sistemas de IA de alto riesgo sujetos a los requisitos del Artículo 10. Las sanciones por incumplimiento alcanzan los 30 millones de euros o el 6 % del volumen de negocios anual mundial. La lista de comprobación de despliegue L2 satisface directamente los requisitos de los Artículos 14 y 15.

¿Qué es la propiedad de corregibilidad y por qué importa para los agentes autónomos?

La corregibilidad es la propiedad de que un agente se deja detener, corregir o redirigir sin resistencia. Importa porque un agente de alto rendimiento que resiste detenerse durante una tarea incorrecta causa más daño que uno de menor rendimiento que se detiene inmediatamente. Cuatro propiedades requeridas: mecanismo de dirección dentro de un ciclo de llamada a herramienta; límite de presupuesto no evadible; manejador SIGTERM con punto de control; y transparencia de estado independiente del agente.