title: Оптимизация затрат LLM — шесть рычагов для агентных флотов в продакшне description: Шесть рычагов оптимизации затрат LLM: маршрутизация моделей, кеширование подсказок, пакетный инференс, сжатие контекста, лимиты бюджета на агента, контроль выходных токенов — с реальными цифрами затрат. slug: /learn/llm-cost-optimization primary_keyword: оптимизация затрат llm secondary_keywords:
- снижение затрат openai api
- снижение затрат токенов llm
- контроль затрат ai агента
- экономия кеширования подсказок
- маршрутизация моделей ai агенты last_updated: "2026-06-05" schema_types:
- FAQPage page_type: learn related:
- /learn/ai-agent-platform
- /learn/ai-agent-security
- /learn/ai-agent-orchestration
- /learn/ai-agent-frameworks
- /learn/what-is-an-ai-agent
Оптимизация затрат LLM: шесть рычагов для агентных флотов в продакшне
Оптимизация затрат LLM — это практика снижения расходов на токены в продакшн-системах искусственного интеллекта без ущерба для качества задач. Отчёт FinOps Foundation State of FinOps 2026 показал, что расходы на ИИ/МО — первая новая категория затрат, указанная 67% респондентов, со среднегодовым удвоением расходов на LLM. Шесть конкретных рычагов — маршрутизация моделей, кеширование подсказок, пакетный инференс, сжатие контекста, лимиты бюджета на агента и контроль выходных токенов — могут снизить стоимость на задачу на 50–80% в продакшн-конвейерах агентов смешанной сложности без изменения результатов.
Оптимизация затрат LLM — это структурированная практика снижения расходов на токены и вычисления API-вызовов больших языковых моделей в производственных системах, применяемая к выбору модели, структуре подсказок, времени инференса, управлению контекстом и применению бюджетов, для минимизации стоимости каждой успешной задачи без деградации качества вывода.
Почему расходы на LLM стали темой уровня совета директоров
Один вызов GPT-4o, заполняющий контекст 128k, обходится в $0,32 только на входных токенах. Мультиагентный конвейер с 20 LLM-вызовами на задачу достигает $6,40 на задачу по входным токенам. При 10 000 задачах в день это $64 000 ежедневно в расходах на LLM API, $23M в год.
Позиция OpenLegion: лимиты бюджета — примитив безопасности, а не просто FinOps
OpenLegion рассматривает лимиты бюджета на агента как примитив безопасности, применяемый на уровне инфраструктуры. У каждого агента есть лимит daily_usd и monthly_usd. Когда агент достигает лимита, LLM-вызовы для этого агента блокируются, а не весь конвейер.
Полный контекст безопасности см. в безопасность AI-агентов и защита от Denial of Wallet.
Шесть рычагов
Рычаг 1: Маршрутизация моделей — использовать самую дешёвую достаточную модель
Claude Haiku 4.5 стоит $0,80/$4 за миллион входных/выходных токенов. Claude Opus 4.8 — $5/$25. Маршрутизация задачи в Haiku вместо Opus экономит 84% на вводе и 84% на выводе для этого вызова.
Трёхуровневый паттерн маршрутизации:
| Тип задачи | Модель | Стоимость (ввод/M) |
|---|---|---|
| Классификация, форматирование, извлечение | Claude Haiku 4.5 | $0,80 |
| Умеренное рассуждение, суммаризация | Claude Sonnet 4 | $3,00 |
| Сложный синтез, многошаговое рассуждение | Claude Opus 4.8 | $5,00 |
Databricks Genie применила этот паттерн и сообщила о снижении затрат на 61% по сравнению с маршрутизацией всех задач в Opus 4.7.
Рычаг 2: Кеширование подсказок — 90% экономии на повторяющемся контексте
Anthropic выпустила кеширование подсказок 2024-08-14. Последующие вызовы, содержащие тот же префикс, платят 10% от стандартной цены входных токенов за кешированную часть, то есть снижение на 90%.
При ценах Opus 4.8 ($5,00/M входных токенов) системная подсказка из 10 000 токенов обходится в $0,05 за вызов без кеша. С кешем — $0,005.
Рычаг 3: Пакетный инференс — скидка 50% для задач не в реальном времени
Message Batches API Anthropic и Batch API OpenAI тарифицируют асинхронные нагрузки по 50% от стандартных тарифов.
Рычаг 4: Сжатие контекста — убрать то, что не нужно модели
Суммаризация разговора. Сжатие истории разговора в 40 000 токенов до структурированного резюме в 8 000 токенов снижает стоимость ввода последующих вызовов на 80%.
Обрезка результатов инструментов. Веб-скрапинг может вернуть 50 000 токенов необработанного контента, когда агенту нужны 200 токенов извлечённых фактов.
Рычаг 5: Лимиты бюджета на агента — применение на уровне инфраструктуры
OpenLegion реализует daily_usd и monthly_usd на агента на уровне mesh. При достижении лимита: LLM-вызовы для этого агента блокируются, конвейер продолжает работу, статус заблокированного агента обновляется на блэкборде.
Рычаг 6: Контроль выходных токенов — структурированные выводы и ограниченная генерация
JSON-режим / структурированные выводы. Для задач, производящих структурированные данные, требование вывода JSON вместо прозы сокращает количество выходных токенов на 40–60%.
Явные ограничения max_tokens. Установить max_tokens на реалистичный верхний предел для задачи.
Сравнение: контроль затрат в агентных фреймворках
| Измерение | OpenLegion | LangGraph | CrewAI | AutoGen |
|---|---|---|---|---|
| Встроенная маршрутизация моделей | Да, поле модели на агента | Нет, вручную в коде | Нет | Нет |
| Лимиты бюджета на агента | Да, daily_usd + monthly_usd | Нет | Нет | Нет |
| Жёсткое ограничение расходов | Да, LLM-вызовы блокируются при превышении | Нет | Нет | Нет |
| Отслеживание затрат в реальном времени | Да, Cost Tracker в Zone 2 | Не встроено | Не встроено | Не встроено |
Часто задаваемые вопросы
Что такое оптимизация затрат LLM?
Оптимизация затрат LLM — практика снижения расходов на токены и вычисления в продакшн-системах ИИ без деградации качества. Шесть основных рычагов: маршрутизация моделей, кеширование подсказок (экономия 90%), пакетный инференс (скидка 50%), сжатие контекста, лимиты бюджета на агента и контроль выходных токенов. Применённые вместе, регулярно достигают снижения затрат на 50–80%.
Насколько кеширование подсказок может снизить затраты LLM?
Кеширование подсказок Anthropic (выпущено 2024-08-14) снижает стоимость входных токенов на повторяющемся контексте до 90%. Системная подсказка из 10 000 токенов при ценах Claude Opus 4.8 стоит $0,05/вызов без кеша и $0,005 с кешем.
Что такое маршрутизация моделей в AI-агентах?
Маршрутизация моделей направляет каждый шаг в конвейере агента к самой дешёвой модели, которая может надёжно с ним справиться. Databricks Genie достигла снижения затрат на 61%, применив этот паттерн.
Что такое API пакетного инференса Anthropic?
Message Batches API Anthropic обрабатывает запросы асинхронно по 50% от стандартных тарифов. OpenAI предлагает аналогичный Batch API с такой же скидкой 50%.
Как работают лимиты бюджета на агента в OpenLegion?
Каждый агент в OpenLegion имеет лимиты daily_usd и monthly_usd, применяемые на уровне mesh Cost Tracker в Zone 2. Когда агент достигает лимита, LLM-вызовы для этого агента немедленно блокируются. Остальной конвейер продолжает работу.
Как сжатие контекста снижает стоимость токенов LLM?
Сжатие контекста удаляет из API-вызовов токены, не влияющие на качество вывода: суммаризация истории разговора (контекст 40 000 токенов, сжатый до 8 000, снижает стоимость ввода на 80%), обрезка результатов инструментов до необходимых полей.
Что такое Denial of Wallet и как лимиты бюджета его предотвращают?
Denial of Wallet — OWASP LLM10:2025, атака, при которой агент манипулируется для потребления неограниченного количества токенов. Лимиты бюджета на агента с жёсткими отсечками на уровне инфраструктуры предотвращают это: при достижении лимита LLM-вызовы блокируются слоем mesh, а не самим агентом.
Запуск агентов с затратами, встроенными в архитектуру
О платформе, применяющей лимиты бюджета на уровне инфраструктуры, см. обзор платформы AI-агентов.
Запустить продакшн-агентов с лимитами бюджета на уровне инфраструктуры