LLM成本优化:生产智能体集群的六个杠杆
LLM成本优化是在不牺牲任务质量的情况下减少生产AI系统令牌支出的实践。FinOps Foundation的State of FinOps 2026报告发现,AI/ML支出是67%受访者列举的头号新增成本类别,LLM中位支出同比翻倍。模型路由、提示词缓存、批量推理、上下文压缩、按智能体预算上限和输出令牌控制这六个具体杠杆,可在不改变结果的情况下,将混合复杂度生产智能体管道的每任务成本降低50%-80%。
LLM成本优化是针对模型选择、提示词结构、推理时机、上下文管理和预算执行,结构化地减少生产系统中大型语言模型API调用的令牌和计算支出的实践,旨在不降低输出质量的前提下最小化每次成功任务的成本。
为何LLM支出已成为董事会级别议题
填满128k上下文的单次GPT-4o调用,仅输入令牌就需$0.32。每次任务执行20次LLM调用的多智能体管道,仅输入令牌就达$6.40/任务。每天10,000个任务,这意味着每日LLM API支出$64,000,每年$23M。
OpenLegion观点:预算上限是安全原语,不只是FinOps
OpenLegion将按智能体预算上限视为在基础设施层强制执行的安全原语。每个智能体有daily_usd和monthly_usd上限。当智能体达到上限时,该智能体的LLM调用被阻止,而不是整个管道。这是硬截止,不是软警告。
完整安全背景参见AI智能体安全与钱包拒绝服务防御。
六个杠杆
杠杆1:模型路由——使用足够用的最便宜模型
Claude Haiku 4.5的输入/输出每百万令牌$0.80/$4。Claude Opus 4.8为$5/$25。将任务路由到Haiku而非Opus,该调用的输入节省84%,输出节省84%。
三级路由模式:
| 任务类型 | 模型 | 成本(输入/M) |
|---|---|---|
| 分类、格式化、提取 | Claude Haiku 4.5 | $0.80 |
| 中等推理、摘要 | Claude Sonnet 4 | $3.00 |
| 复杂合成、多步推理 | Claude Opus 4.8 | $5.00 |
Databricks Genie实施此模式后报告成本降低61%。
杠杆2:提示词缓存——重复上下文节省90%
Anthropic于2024-08-14发布提示词缓存。后续调用中缓存部分仅需支付标准输入令牌价格的10%,即节省90%。
以Opus 4.8定价($5.00/M输入令牌),10,000令牌的系统提示词无缓存时每次调用$0.05,有缓存时降至$0.005。
杠杆3:批量推理——非实时任务享50%折扣
Anthropic的Message Batches API和OpenAI的Batch API对异步工作负载按标准费率的50%收费。
杠杆4:上下文压缩——删除模型不需要的内容
对话摘要。 将40,000令牌的对话历史压缩为8,000令牌的结构化摘要,后续调用的输入成本降低80%。
工具结果修剪。 当智能体只需要200令牌的提取事实时,网页抓取可能返回50,000令牌的原始内容。
杠杆5:按智能体预算上限——在基础设施层执行
OpenLegion在mesh层按智能体实施daily_usd和monthly_usd。达到上限时:该智能体的LLM调用被阻止,管道继续运行,被阻止智能体的状态在黑板上更新。
杠杆6:输出令牌控制——结构化输出和受限生成
JSON模式/结构化输出。 对于生成结构化数据的任务,要求JSON输出而非散文,可将输出令牌数减少40%-60%。
显式max_tokens上限。 将max_tokens设置为任务的现实上限。
跨智能体框架的成本控制比较
| 维度 | OpenLegion | LangGraph | CrewAI | AutoGen |
|---|---|---|---|---|
| 内置模型路由 | 是,按智能体的模型字段 | 否,代码中手动 | 否 | 否 |
| 按智能体预算上限 | 是,daily_usd + monthly_usd | 否 | 否 | 否 |
| 硬性支出截止 | 是,超出时LLM调用被阻止 | 否 | 否 | 否 |
| 实时成本追踪 | 是,Zone 2的Cost Tracker | 未内置 | 未内置 | 未内置 |
常见问题
什么是LLM成本优化?
LLM成本优化是在不降低质量的情况下减少生产AI系统中令牌和计算支出的实践。六个主要杠杆:模型路由、提示词缓存(节省90%)、批量推理(折扣50%)、上下文压缩、按智能体预算上限和输出令牌控制。综合应用可实现50%-80%的成本降低。
提示词缓存能降低多少LLM成本?
Anthropic提示词缓存(2024-08-14发布)可将重复上下文的输入令牌成本降低最多90%。以Claude Opus 4.8定价,10,000令牌的系统提示词无缓存时每次调用$0.05,有缓存时$0.005。
AI智能体中的模型路由是什么?
模型路由将智能体管道的每个步骤分发到能可靠处理该步骤的最便宜模型。Databricks Genie应用此模式后实现61%的成本降低。
Anthropic批量推理API是什么,能节省多少?
Anthropic的Message Batches API以标准费率的50%异步处理请求。OpenAI提供类似的Batch API,同样50%折扣。
OpenLegion中按智能体预算上限如何工作?
OpenLegion中每个智能体有由Zone 2的Cost Tracker在mesh层执行的daily_usd和monthly_usd上限。智能体达到上限时,该智能体的LLM调用立即被阻止。管道其余部分继续运行。
上下文压缩如何降低LLM令牌成本?
上下文压缩从API调用中删除不影响输出质量的令牌:对话历史摘要(40,000令牌上下文压缩为8,000令牌,输入成本降低80%)、将工具结果修剪为必要字段。
什么是钱包拒绝服务,预算上限如何防止它?
钱包拒绝服务是OWASP LLM10:2025,指智能体被操纵消耗无限令牌的攻击。当智能体在mesh层达到上限时LLM调用被阻止。这由基础设施而非智能体本身执行,因此被攻陷的智能体无法绕过限制。
将成本内嵌入架构来运行智能体
关于在基础设施层执行预算上限的平台,参见AI智能体平台概述。