Otimização de Custos LLM: Seis Alavancas para Frotas de Agentes em Produção
A otimização de custos LLM é a prática de reduzir os gastos com tokens em sistemas de IA em produção sem sacrificar a qualidade das tarefas. O relatório State of FinOps 2026 da FinOps Foundation descobriu que o gasto em IA/ML é a principal nova categoria de custos citada por 67% dos entrevistados, com os gastos medianos em LLM dobrando ano a ano. Seis alavancas concretas, roteamento de modelo, cache de prompts, inferência em lote, compressão de contexto, limites de orçamento por agente e controle de tokens de saída, podem reduzir o custo por tarefa em 50 a 80% em pipelines de agentes de produção de complexidade mista sem alterar os resultados.
A otimização de custos LLM é a prática estruturada de reduzir os gastos em tokens e computação das chamadas de API de grandes modelos de linguagem em sistemas de produção, aplicada à seleção de modelos, estrutura de prompts, timing de inferência, gerenciamento de contexto e aplicação de orçamentos, para minimizar o custo por tarefa bem-sucedida sem degradar a qualidade de saída.
Por que os gastos com LLM se tornaram uma preocupação no nível da diretoria
Uma única chamada ao GPT-4o preenchendo um contexto de 128k custa $0,32 apenas em tokens de entrada. Um pipeline multi-agente executando 20 chamadas LLM por tarefa chega a $6,40 por tarefa em tokens de entrada antes de qualquer saída. A 10.000 tarefas por dia, isso representa $64.000 diários em gastos com API LLM, $23M por ano.
Perspectiva da OpenLegion: limites de orçamento são um primitivo de segurança, não apenas FinOps
A OpenLegion trata os limites de orçamento por agente como um primitivo de segurança aplicado na camada de infraestrutura. Cada agente tem um limite daily_usd e monthly_usd. Quando um agente atinge seu limite, as chamadas LLM para esse agente são bloqueadas, não o pipeline inteiro. Isso é um corte rígido, não um aviso suave.
Para o contexto de segurança completo, ver segurança de agentes IA e defesa contra negação de carteira.
As Seis Alavancas
Alavanca 1: Roteamento de Modelo — usar o modelo mais barato que seja suficiente
Claude Haiku 4.5 custa $0,80/$4 por milhão de tokens de entrada/saída. Claude Opus 4.8 custa $5/$25. Rotear uma tarefa para Haiku em vez de Opus economiza 84% na entrada e 84% na saída.
| Tipo de tarefa | Modelo | Custo (entrada/M) |
|---|---|---|
| Classificação, formatação, extração | Claude Haiku 4.5 | $0,80 |
| Raciocínio moderado, resumo | Claude Sonnet 4 | $3,00 |
| Síntese complexa, raciocínio multi-etapas | Claude Opus 4.8 | $5,00 |
Databricks Genie implementou esse padrão e reportou redução de custos de 61% em comparação com o roteamento de todas as tarefas para Opus 4.7.
Alavanca 2: Cache de Prompts — 90% de economia em contexto repetido
A Anthropic lançou o cache de prompts em 2024-08-14. As chamadas subsequentes que incluem o mesmo prefixo pagam 10% do preço padrão de tokens de entrada para a parte em cache, uma redução de 90%.
Aos preços do Opus 4.8 ($5,00/M tokens de entrada), um prompt de sistema de 10.000 tokens custa $0,05 por chamada sem cache. Com cache, cai para $0,005.
Alavanca 3: Inferência em Lote — 50% de desconto para tarefas não em tempo real
A API Message Batches da Anthropic e a Batch API da OpenAI cobram cargas de trabalho assíncronas a 50% das tarifas padrão.
Alavanca 4: Compressão de Contexto — remover o que o modelo não precisa
Resumo de conversa. Um histórico de 40.000 tokens comprimido para um resumo estruturado de 8.000 tokens reduz o custo de entrada em 80% para chamadas subsequentes.
Poda de resultados de ferramentas. Um scraping web pode retornar 50.000 tokens de conteúdo bruto quando o agente precisa de 200 tokens de fatos extraídos.
Alavanca 5: Limites de Orçamento por Agente — aplicação na camada de infraestrutura
A OpenLegion implementa daily_usd e monthly_usd por agente na camada mesh. Quando o limite é atingido: as chamadas LLM para esse agente são bloqueadas, o pipeline continua, o status do agente bloqueado é atualizado no blackboard.
Alavanca 6: Controle de Tokens de Saída — saídas estruturadas e geração restrita
Modo JSON / saídas estruturadas. Para tarefas que produzem dados estruturados, exigir saída JSON em vez de prosa reduz a contagem de tokens de saída em 40 a 60%.
Limites explícitos de max_tokens. Definir max_tokens no limite superior realista para a tarefa.
Comparação: Controle de Custos Entre Frameworks de Agentes
| Dimensão | OpenLegion | LangGraph | CrewAI | AutoGen |
|---|---|---|---|---|
| Roteamento de modelo integrado | Sim, campo modelo por agente | Não, manual no código | Não, manual no código | Não, manual no código |
| Limites de orçamento por agente | Sim, daily_usd + monthly_usd | Não | Não | Não |
| Corte rígido de gastos | Sim, chamadas LLM bloqueadas em excesso | Não | Não | Não |
| Rastreamento de custos em tempo real | Sim, Cost Tracker na Zona 2 | Não integrado | Não integrado | Não integrado |
Perguntas Frequentes
O que é otimização de custos LLM?
A otimização de custos LLM é a prática de reduzir os gastos em tokens e computação em sistemas de IA em produção sem degradar a qualidade. Seis alavancas principais cobrem o espaço: roteamento de modelos, cache de prompts (90% de economia), inferência em lote (50% de desconto), compressão de contexto, limites de orçamento por agente e controle de tokens de saída. Aplicadas juntas, essas alavancas alcançam regularmente reduções de custo de 50 a 80%.
Quanto o cache de prompts pode reduzir os custos LLM?
O cache de prompts da Anthropic, lançado em 2024-08-14, reduz os custos de tokens de entrada em até 90% em contexto repetido. Um prompt de sistema de 10.000 tokens custa $0,05 por chamada sem cache e $0,005 com cache aos preços do Claude Opus 4.8. A OpenAI oferece aproximadamente 50% de economia em tokens de entrada em cache via cache automático no GPT-4o.
O que é roteamento de modelos em agentes de IA?
O roteamento de modelos despacha cada etapa em um pipeline de agente para o modelo mais barato que possa lidar com ela de forma confiável. Databricks Genie alcançou redução de custos de 61% aplicando esse padrão.
O que é a API de inferência em lote da Anthropic?
A API Message Batches da Anthropic processa solicitações de forma assíncrona a 50% das tarifas padrão. A OpenAI oferece uma API Batch similar com o mesmo desconto de 50%.
Como funcionam os limites de orçamento por agente na OpenLegion?
Cada agente na OpenLegion tem limites daily_usd e monthly_usd aplicados na camada mesh pelo Cost Tracker na Zona 2. Quando um agente atinge seu limite, as chamadas LLM para esse agente são bloqueadas imediatamente. O restante do pipeline continua funcionando.
Como a compressão de contexto reduz os custos de tokens LLM?
A compressão de contexto remove tokens de chamadas de API que não contribuem para a qualidade de saída: resumo do histórico de conversação (um contexto de 40.000 tokens comprimido para 8.000 tokens reduz o custo de entrada em 80%), poda de resultados de ferramentas para campos essenciais.
O que é negação de carteira e como os limites de orçamento a previnem?
Negação de carteira é OWASP LLM10:2025, um ataque onde um agente é manipulado para consumir tokens ilimitados. Os limites de orçamento por agente com cortes rígidos em nível de infraestrutura previnem isso: quando o limite é atingido, as chamadas LLM são bloqueadas pela camada mesh, não pelo próprio agente.
Execute Agentes com Custos Integrados na Arquitetura
Para a plataforma que aplica limites de orçamento na camada de infraestrutura, ver a visão geral da plataforma de agentes IA.
Executar agentes de produção com limites de orçamento aplicados na camada de infraestrutura