LLM成本最佳化：生產智能體群集的六個槓桿

LLM成本最佳化是在不犧牲任務品質的情況下減少生產AI系統令牌支出的實踐。FinOps Foundation的State of FinOps 2026報告發現，AI/ML支出是67%受訪者列舉的首要新增成本類別，LLM中位支出同比翻倍。模型路由、提示詞快取、批次推理、上下文壓縮、按智能體預算上限和輸出令牌控制這六個具體槓桿，可在不改變結果的情況下，將混合複雜度生產智能體管道的每任務成本降低50%-80%。

LLM成本最佳化是針對模型選擇、提示詞結構、推理時機、上下文管理和預算執行，結構化地減少生產系統中大型語言模型API呼叫的令牌和計算支出的實踐，旨在不降低輸出品質的前提下最小化每次成功任務的成本。

為何LLM支出已成為董事會級別議題

填滿128k上下文的單次GPT-4o呼叫，僅輸入令牌就需$0.32。每次任務執行20次LLM呼叫的多智能體管道，僅輸入令牌就達$6.40/任務。每天10,000個任務，這意味著每日LLM API支出$64,000，每年$23M。

OpenLegion觀點：預算上限是安全原語，不只是FinOps

OpenLegion將按智能體預算上限視為在基礎設施層強制執行的安全原語。每個智能體有daily_usd和monthly_usd上限。當智能體達到上限時，該智能體的LLM呼叫被阻止，而不是整個管道。這是硬截止，不是軟警告。

完整安全背景參見AI智能體安全與錢包拒絕服務防禦。

六個槓桿

槓桿1：模型路由——使用足夠用的最便宜模型

Claude Haiku 4.5的輸入/輸出每百萬令牌$0.80/$4。Claude Opus 4.8為$5/$25。將任務路由到Haiku而非Opus，該呼叫的輸入節省84%，輸出節省84%。

三級路由模式：

任務類型	模型	成本（輸入/M）
分類、格式化、提取	Claude Haiku 4.5	$0.80
中等推理、摘要	Claude Sonnet 4	$3.00
複雜合成、多步推理	Claude Opus 4.8	$5.00

Databricks Genie實施此模式後報告成本降低61%。

槓桿2：提示詞快取——重複上下文節省90%

Anthropic於2024-08-14發布提示詞快取。後續呼叫中快取部分僅需支付標準輸入令牌價格的10%，即節省90%。

以Opus 4.8定價（$5.00/M輸入令牌），10,000令牌的系統提示詞無快取時每次呼叫$0.05，有快取時降至$0.005。

槓桿3：批次推理——非即時任務享50%折扣

Anthropic的Message Batches API和OpenAI的Batch API對非同步工作負載按標準費率的50%收費。

槓桿4：上下文壓縮——刪除模型不需要的內容

對話摘要。 將40,000令牌的對話歷史壓縮為8,000令牌的結構化摘要，後續呼叫的輸入成本降低80%。

工具結果修剪。 當智能體只需要200令牌的提取事實時，網頁抓取可能回傳50,000令牌的原始內容。

槓桿5：按智能體預算上限——在基礎設施層執行

OpenLegion在mesh層按智能體實施daily_usd和monthly_usd。達到上限時：該智能體的LLM呼叫被阻止，管道繼續運作，被阻止智能體的狀態在黑板上更新。

槓桿6：輸出令牌控制——結構化輸出和受限生成

JSON模式/結構化輸出。 對於生成結構化資料的任務，要求JSON輸出而非散文，可將輸出令牌數減少40%-60%。

明確的max_tokens上限。 將max_tokens設定為任務的現實上限。

跨智能體框架的成本控制比較

維度	OpenLegion	LangGraph	CrewAI	AutoGen
內建模型路由	是，按智能體的模型欄位	否，程式碼中手動	否	否
按智能體預算上限	是，daily_usd + monthly_usd	否	否	否
硬性支出截止	是，超出時LLM呼叫被阻止	否	否	否
即時成本追蹤	是，Zone 2的Cost Tracker	未內建	未內建	未內建

常見問題

什麼是LLM成本最佳化？

LLM成本最佳化是在不降低品質的情況下減少生產AI系統中令牌和計算支出的實踐。六個主要槓桿：模型路由、提示詞快取（節省90%）、批次推理（折扣50%）、上下文壓縮、按智能體預算上限和輸出令牌控制。綜合應用可實現50%-80%的成本降低。

提示詞快取能降低多少LLM成本？

Anthropic提示詞快取（2024-08-14發布）可將重複上下文的輸入令牌成本降低最多90%。以Claude Opus 4.8定價，10,000令牌的系統提示詞無快取時每次呼叫$0.05，有快取時$0.005。

AI智能體中的模型路由是什麼？

模型路由將智能體管道的每個步驟分發到能可靠處理該步驟的最便宜模型。Databricks Genie應用此模式後實現61%的成本降低。

Anthropic批次推理API是什麼，能節省多少？

Anthropic的Message Batches API以標準費率的50%非同步處理請求。OpenAI提供類似的Batch API，同樣50%折扣。

OpenLegion中按智能體預算上限如何工作？

OpenLegion中每個智能體有由Zone 2的Cost Tracker在mesh層執行的daily_usd和monthly_usd上限。智能體達到上限時，該智能體的LLM呼叫立即被阻止。管道其餘部分繼續運作。

上下文壓縮如何降低LLM令牌成本？

上下文壓縮從API呼叫中刪除不影響輸出品質的令牌：對話歷史摘要（40,000令牌上下文壓縮為8,000令牌，輸入成本降低80%）、將工具結果修剪為必要欄位。

什麼是錢包拒絕服務，預算上限如何防止它？

錢包拒絕服務是OWASP LLM10:2025，指智能體被操縱消耗無限令牌的攻擊。當智能體在mesh層達到上限時LLM呼叫被阻止。這由基礎設施而非智能體本身執行，因此被攻陷的智能體無法繞過限制。

將成本內嵌入架構來執行智能體

關於在基礎設施層執行預算上限的平台，參見AI智能體平台概述。

在基礎設施層執行預算上限，執行生產智能體