Optimización de costos LLM: Seis palancas para flotas de agentes en producción
La optimización de costos LLM es la práctica de reducir el gasto en tokens en sistemas de IA en producción sin sacrificar la calidad de las tareas. El informe State of FinOps 2026 de la FinOps Foundation encontró que el gasto en IA/ML es la primera nueva categoría de costos citada por el 67 % de los encuestados, con el gasto mediano en LLM duplicándose año tras año. Seis palancas concretas, a saber, enrutamiento de modelos, caché de prompts, inferencia por lotes, compresión de contexto, límites de presupuesto por agente y control de tokens de salida, pueden reducir el costo por tarea entre un 50 y un 80 % en pipelines de agentes de producción de complejidad mixta sin cambiar los resultados.
La optimización de costos LLM es la práctica estructurada de reducir el gasto en tokens y cómputo de las llamadas API de grandes modelos de lenguaje en sistemas de producción, aplicada a la selección de modelos, la estructura de prompts, el tiempo de inferencia, la gestión del contexto y la aplicación de presupuestos, para minimizar el costo por tarea exitosa sin degradar la calidad de salida.
Por qué el gasto en LLM se ha convertido en un tema a nivel de junta directiva
Los presupuestos de IA empresarial siguieron un arco predecible: construir rápido en 2024-2025, luego enfrentar la factura. Una sola llamada a GPT-4o que llena un contexto de 128k cuesta $0,32 solo en tokens de entrada. Un pipeline multi-agente que ejecuta 20 llamadas LLM por tarea alcanza $6,40 por tarea solo en tokens de entrada antes de cualquier salida, llamada de herramienta o infraestructura. A 10.000 tareas por día, eso son $64.000 diarios en gasto de API LLM, $23M al año, de un solo pipeline no optimizado.
Opinión de OpenLegion: los límites de presupuesto son un primitivo de seguridad, no solo FinOps
OpenLegion trata los límites de presupuesto por agente como un primitivo de seguridad aplicado en la capa de infraestructura. Cada agente tiene un límite daily_usd y monthly_usd. Cuando un agente alcanza su límite, las llamadas LLM para ese agente se bloquean, no el pipeline completo. Esto es un corte estricto, no una advertencia suave.
Tres implicaciones concretas:
Prevención de bucles descontrolados. Un agente en un bucle de razonamiento recursivo alcanza su límite diario y se detiene. Con un límite de $2/día por agente, el peor caso es $2.
Defensa contra denegación de cartera. OWASP LLM10:2025 nombra la denegación de cartera como un riesgo principal de aplicaciones LLM. Un límite estricto aplicado en la capa mesh no puede ser evadido por el agente.
Modelado predecible de costos. Con límites por agente, el gasto diario máximo para una flota de N agentes es N multiplicado por el límite diario.
Para el contexto de seguridad completo, ver seguridad de agentes IA y defensa contra denegación de cartera.
Las seis palancas
Palanca 1: Enrutamiento de modelos — usar el modelo más barato que sea suficiente
La palanca individual más grande. Claude Haiku 4.5 cuesta $0,80/$4 por millón de tokens de entrada/salida. Claude Opus 4.8 cuesta $5/$25. Enrutar una tarea a Haiku en lugar de Opus ahorra el 84 % en entrada y el 84 % en salida para esa llamada.
Un patrón de enrutamiento de tres niveles cubre la mayoría de los pipelines:
| Tipo de tarea | Modelo | Costo (entrada/M) |
|---|---|---|
| Clasificación, formato, extracción | Claude Haiku 4.5 | $0,80 |
| Razonamiento moderado, resumen | Claude Sonnet 4 | $3,00 |
| Síntesis compleja, razonamiento multi-paso | Claude Opus 4.8 | $5,00 |
Databricks Genie implementó este patrón y reportó una reducción de costos del 61 % frente al enrutamiento de todas las tareas a Opus 4.7.
Palanca 2: Caché de prompts — 90 % de ahorro en contexto repetido
Anthropic lanzó el caché de prompts el 2024-08-14. Las llamadas posteriores que incluyen el mismo prefijo pagan el 10 % del precio estándar de tokens de entrada para la parte en caché, una reducción del 90 %.
A los precios de Opus 4.8 ($5,00/M tokens de entrada), un prompt del sistema de 10.000 tokens cuesta $0,05 por llamada sin caché. Con caché, baja a $0,005.
Palanca 3: Inferencia por lotes — 50 % de descuento para tareas no en tiempo real
La API Message Batches de Anthropic y la API Batch de OpenAI facturan las cargas de trabajo asíncronas al 50 % de las tarifas estándar.
Usar procesamiento por lotes para cargas de trabajo que toleran latencia asíncrona:
- Generación de informes nocturnos
- Colas de procesamiento de documentos
- Ejecuciones de evaluación masiva
Palanca 4: Compresión de contexto — podar lo que el modelo no necesita
Tres técnicas de compresión en orden de prioridad:
Resumen de conversación. Un historial de 40.000 tokens comprimido a un resumen estructurado de 8.000 tokens reduce el costo de entrada en un 80 % para llamadas posteriores.
Poda de resultados de herramientas. Un scraping web puede devolver 50.000 tokens de contenido bruto cuando el agente necesita 200 tokens de hechos extraídos.
Eliminación de respuestas API detalladas. Muchas APIs devuelven JSON profundamente anidado con metadatos que el LLM no necesita.
Palanca 5: Límites de presupuesto por agente — aplicación en la capa de infraestructura
OpenLegion implementa daily_usd y monthly_usd por agente en la capa mesh. Cuando se alcanza el límite: las llamadas LLM para ese agente se bloquean, el pipeline continúa, el estado del agente bloqueado se actualiza en el blackboard.
Palanca 6: Control de tokens de salida — salidas estructuradas y generación restringida
Modo JSON / salidas estructuradas. Para tareas que producen datos estructurados, requerir salida JSON en lugar de prosa reduce el recuento de tokens de salida entre un 40 y un 60 %.
Límites explícitos de max_tokens. Establecer max_tokens en el límite superior realista para la tarea.
Comparación: control de costos en frameworks de agentes
| Dimensión | OpenLegion | LangGraph | CrewAI | AutoGen |
|---|---|---|---|---|
| Enrutamiento de modelos integrado | Sí, campo modelo por agente | No, manual en código | No, manual en código | No, manual en código |
| Límites de presupuesto por agente | Sí, daily_usd + monthly_usd | No | No | No |
| Corte estricto de gasto | Sí, llamadas LLM bloqueadas en exceso | No | No | No |
| Seguimiento de costos en tiempo real | Sí, Cost Tracker en Zona 2 | No integrado | No integrado | No integrado |
Preguntas frecuentes
¿Qué es la optimización de costos LLM?
La optimización de costos LLM es la práctica de reducir el gasto en tokens y cómputo en sistemas de IA en producción sin degradar la calidad. Seis palancas principales cubren el espacio: enrutamiento de modelos, caché de prompts (90 % de ahorro), inferencia por lotes (50 % de descuento), compresión de contexto, límites de presupuesto por agente y control de tokens de salida. Aplicadas juntas, estas palancas logran regularmente reducciones de costos del 50 al 80 %.
¿Cuánto puede reducir el caché de prompts los costos LLM?
El caché de prompts de Anthropic, lanzado el 2024-08-14, reduce los costos de tokens de entrada hasta un 90 % en contexto repetido. Un prompt del sistema de 10.000 tokens cuesta $0,05 por llamada sin caché y $0,005 con caché a los precios de Claude Opus 4.8. OpenAI ofrece aproximadamente un 50 % de ahorro en tokens de entrada en caché a través del caché automático en GPT-4o.
¿Qué es el enrutamiento de modelos en agentes de IA?
El enrutamiento de modelos despacha cada paso en un pipeline de agente al modelo más barato que pueda manejarlo de manera confiable. Las tareas simples van a Claude Haiku 4.5 a $0,80 por millón de tokens de entrada; el razonamiento moderado va a Sonnet 4 a $3,00; la síntesis compleja va a Opus 4.8 a $5,00. Databricks Genie logró una reducción de costos del 61 % aplicando este patrón.
¿Qué es la API de inferencia por lotes de Anthropic?
La API Message Batches de Anthropic procesa solicitudes de forma asíncrona al 50 % de las tarifas estándar. OpenAI ofrece una API Batch similar con el mismo descuento del 50 %. La inferencia por lotes es adecuada para cargas de trabajo que toleran latencia asíncrona: generación de informes nocturnos, colas de procesamiento de documentos, clasificación masiva.
¿Cómo funcionan los límites de presupuesto por agente en OpenLegion?
Cada agente en OpenLegion tiene límites daily_usd y monthly_usd aplicados en la capa mesh por el Cost Tracker en Zona 2. Cuando un agente alcanza su límite, las llamadas LLM para ese agente se bloquean inmediatamente. El resto del pipeline continúa funcionando. Una flota de 20 agentes con límite de $5/día tiene una exposición diaria máxima de $100.
¿Cómo reduce la compresión de contexto los costos de tokens LLM?
La compresión de contexto elimina tokens de las llamadas API que no contribuyen a la calidad de salida: resumen del historial de conversación (un contexto de 40.000 tokens comprimido a 8.000 tokens reduce el costo de entrada en un 80 %), poda de resultados de herramientas a campos esenciales y eliminación de metadatos de respuestas API detalladas.
¿Qué es la denegación de cartera y cómo la previenen los límites de presupuesto?
La denegación de cartera es OWASP LLM10:2025, un ataque donde un agente es manipulado para consumir tokens ilimitados. Los límites de presupuesto por agente con cortes estrictos a nivel de infraestructura lo previenen: cuando se alcanza el límite, las llamadas LLM son bloqueadas por la capa mesh, no por el agente mismo.
Ejecutar agentes con costos integrados en la arquitectura
El costo LLM es una variable de ingeniería, no un overhead fijo. Para la plataforma que aplica límites de presupuesto en la capa de infraestructura, ver la descripción general de la plataforma de agentes IA.
Ejecutar agentes de producción con límites de presupuesto aplicados en la capa de infraestructura