LLMコスト最適化: 本番エージェントフリートのための6つのレバー
LLMコスト最適化とは、タスク品質を犠牲にすることなく、本番AIシステムにおけるトークン支出を削減する実践です。FinOps Foundation の State of FinOps 2026 レポートによると、AI/ML 支出は回答者の 67% に挙げられた第1の新しいコスト カテゴリであり、LLM の中央支出は前年比で倍増しています。モデルルーティング、プロンプトキャッシング、バッチ推論、コンテキスト圧縮、エージェントごとの予算上限、出力トークン制御という6つの具体的なレバーにより、タスク結果を変えることなく、複合的な複雑さの本番エージェントパイプラインにおけるタスクごとのコストを 50〜80% 削減できます。
LLMコスト最適化とは、モデル選択、プロンプト構造、推論タイミング、コンテキスト管理、予算執行を対象として、本番システムにおける大規模言語モデルAPIコールのトークンおよび計算支出を削減する構造化された実践であり、出力品質を低下させることなくタスクあたりのコストを最小化します。
LLM支出が取締役会レベルの懸念事項となった理由
一つの GPT-4o コールが 128k コンテキストを満たした場合、入力トークンだけで $0.32 かかります。タスクあたり 20 回の LLM コールを実行するマルチエージェントパイプラインは、出力、ツールコール、インフラオーバーヘッドなしで入力トークンから $6.40/タスクに達します。1日あたり 10,000 タスクで、これは LLM API 支出で1日あたり $64,000、年間 $23M になります。
OpenLegion の見解: 予算上限はセキュリティプリミティブであり、FinOps だけではない
OpenLegion はエージェントごとの予算上限をインフラストラクチャレイヤーで執行されるセキュリティプリミティブとして扱います。各エージェントには daily_usd と monthly_usd の上限があります。エージェントが上限に達した場合、そのエージェントの LLM コールはブロックされますが、パイプライン全体ではありません。これはハードカットオフであり、ソフト警告ではありません。
詳細なセキュリティコンテキストについては、AIエージェントセキュリティとデナイアル・オブ・ウォレット防御をご覧ください。
6つのレバー
レバー1: モデルルーティング — 十分な最安値モデルを使用する
Claude Haiku 4.5 は入力/出力トークン100万件あたり $0.80/$4 です。Claude Opus 4.8 は $5/$25 です。タスクを Opus ではなく Haiku にルーティングすることで、その呼び出しの入力で 84%、出力で 84% の節約になります。
3階層ルーティングパターン:
| タスクタイプ | モデル | コスト (入力/M) |
|---|---|---|
| 分類、フォーマット、抽出 | Claude Haiku 4.5 | $0.80 |
| 中程度の推論、要約 | Claude Sonnet 4 | $3.00 |
| 複雑な合成、マルチステップ推論 | Claude Opus 4.8 | $5.00 |
Databricks Genie はこのパターンを実装し、すべてのタスクを Opus 4.7 にルーティングする場合と比較してコストを 61% 削減したと報告しています。
レバー2: プロンプトキャッシング — 繰り返されるコンテキストで 90% 節約
Anthropic は 2024-08-14 にプロンプトキャッシングをリリースしました。キャッシュされた部分の後続のコールは、標準の入力トークン価格の 10% を支払います、つまり 90% の削減です。
Opus 4.8 の価格 ($5.00/M 入力トークン) では、10,000 トークンのシステムプロンプトはキャッシュなしで1コールあたり $0.05 かかります。キャッシュありでは $0.005 に下がります。
レバー3: バッチ推論 — リアルタイム以外のタスクで 50% オフ
Anthropic の Message Batches API と OpenAI の Batch API は、非同期ワークロードを標準料金の 50% で請求します。
レバー4: コンテキスト圧縮 — モデルが必要としないものを削除する
会話要約。 40,000 トークンの会話履歴を 8,000 トークンの構造化要約に圧縮すると、後続のコールの入力コストが 80% 削減されます。
ツール結果の整理。 Webスクレイピングは、エージェントが 200 トークンの抽出された事実を必要とするときに、50,000 トークンの生のコンテンツを返す場合があります。
レバー5: エージェントごとの予算上限 — インフラストラクチャレイヤーでの執行
OpenLegion はメッシュレイヤーでエージェントごとに daily_usd と monthly_usd を実装しています。上限に達した場合: そのエージェントの LLM コールがブロックされ、パイプラインは継続し、ブロックされたエージェントのステータスがブラックボードで更新されます。
レバー6: 出力トークン制御 — 構造化出力と制約付き生成
JSON モード / 構造化出力。 構造化データを生成するタスクでは、散文ではなく JSON 出力を要求することで、出力トークン数を 40〜60% 削減します。
明示的な max_tokens 上限。 max_tokens をタスクの現実的な上限に設定します。
エージェントフレームワーク間でのコスト制御の比較
| ディメンション | OpenLegion | LangGraph | CrewAI | AutoGen |
|---|---|---|---|---|
| 組み込みモデルルーティング | あり、エージェントごとのモデルフィールド | なし、ユーザーコードで手動 | なし | なし |
| エージェントごとの予算上限 | あり、daily_usd + monthly_usd | なし | なし | なし |
| ハードな支出カットオフ | あり、超過時に LLM コールがブロック | なし | なし | なし |
| リアルタイムコスト追跡 | あり、Zone 2 の Cost Tracker | 組み込みなし | 組み込みなし | 組み込みなし |
よくある質問
LLMコスト最適化とは何ですか?
LLMコスト最適化とは、品質を低下させることなく本番 AI システムにおけるトークンと計算の支出を削減する実践です。6つの主要なレバーがあります: モデルルーティング、プロンプトキャッシング (90% 節約)、バッチ推論 (50% オフ)、コンテキスト圧縮、エージェントごとの予算上限、出力トークン制御。まとめて適用すると、50〜80% のコスト削減を実現します。
プロンプトキャッシングはLLMコストをどれくらい削減できますか?
Anthropic のプロンプトキャッシング (2024-08-14 リリース) は繰り返されるコンテキストの入力トークンコストを最大 90% 削減します。10,000 トークンのシステムプロンプトは Claude Opus 4.8 の価格でキャッシュなしで $0.05/コール、キャッシュありで $0.005 かかります。OpenAI は GPT-4o の自動プロンプトキャッシングによりキャッシュされた入力トークンで約 50% の節約を提供します。
AIエージェントにおけるモデルルーティングとは何ですか?
モデルルーティングはエージェントパイプラインの各ステップを、それを確実に処理できる最安値のモデルにディスパッチします。Databricks Genie はこのパターンを適用してコストを 61% 削減しました。
Anthropicのバッチ推論APIとはどのようなもので、どれくらいの節約がありますか?
Anthropic の Message Batches API はリクエストを標準料金の 50% で非同期処理します。OpenAI も同じ 50% 割引で類似の Batch API を提供しています。
OpenLegionのエージェントごとの予算上限はどのように機能しますか?
OpenLegion の各エージェントには Zone 2 の Cost Tracker によってメッシュレイヤーで執行される daily_usd と monthly_usd の上限があります。エージェントが上限に達すると、そのエージェントの LLM コールは即座にブロックされます。残りのパイプラインは継続して実行されます。
コンテキスト圧縮はLLMトークンコストをどのように削減しますか?
コンテキスト圧縮は出力品質に寄与しない API コールからトークンを削除します: 会話履歴の要約 (40,000 トークンのコンテキストを 8,000 トークンに圧縮すると入力コストが 80% 削減)、ツール結果の必須フィールドへの整理。
デナイアル・オブ・ウォレットとは何で、予算上限はどのようにそれを防ぎますか?
デナイアル・オブ・ウォレットは OWASP LLM10:2025 です。エージェントがメッシュレイヤーでその上限に達すると LLM コールがブロックされます。これはエージェント自身ではなくインフラストラクチャが強制するため、侵害されたエージェントはアプリケーションレベルのチェックを無視して制限を回避することができません。
コストをアーキテクチャに組み込んだエージェントの実行
インフラストラクチャレイヤーで予算上限を執行するプラットフォームについては、AIエージェントプラットフォームの概要をご覧ください。