Наблюдаемость AI-агентов: что отслеживать в production
Наблюдаемость AI-агентов — это дисциплина регистрации каждого tool call, каждого LLM-вызова и каждого доллара, который автономный агент тратит — захватывая недетерминированные решения, накопительную стоимость и попытки prompt-injection, с которыми традиционный APM никогда не имел дела. Без неё production-флот работает на вере, и один зависший агент может сжечь часы compute, прежде чем кто-то заметит счёт.
Что такое наблюдаемость AI-агентов?
Наблюдаемость AI-агентов — это дисциплина захвата структурированной телеметрии от автономных AI-агентов — трейсы исполнения, расходы на токены, версии промптов, аудит tool calls и события безопасности — чтобы инженеры могли отлаживать, управлять и оптимизировать агентов в production.
Кратко
- Наблюдаемость агентов сложнее наблюдаемости приложений, потому что control flow агента решается LLM в runtime, а не написанным вручную кодом.
- Имеют значение четыре сигнала: end-to-end трейсы, расходы на агента, версионирование промптов и моделей и захват событий безопасности (попытки prompt-injection, отказы ACL, бюджетные cutoffs).
- Большинство агентных фреймворков поставляются без встроенной наблюдаемости — команды прикручивают LangSmith, Langfuse или Arize Phoenix и обнаруживают пробелы после первого production-инцидента.
- Mesh-дашборд OpenLegion записывает каждый tool call, LLM-запрос, строку расходов и событие безопасности по умолчанию — без кода инструментации, без сторонней агентной интеграции.
- Наблюдаемость расходов — это бюджет, о котором вы не знали, что тратите: без cap на агента один зависший агент может сжечь сотни долларов в API-вызовах за ночь.
Почему наблюдаемость AI-агентов отличается
Datadog, Honeycomb, New Relic — каждый традиционный APM-инструмент построен на двух предположениях: пути исполнения кода детерминированы, а обработчики запросов написаны человеком. Автономные агенты ломают оба четырьмя конкретными способами:
- Control flow генерируется, а не пишется. Агент решает в runtime, вызывать ли инструмент, повторять, передавать другому агенту или сдаваться.
- Стоимость не ограничена по умолчанию. Каждый LLM-вызов может цепляться к большему числу вызовов. Без cap бюджета на агента сбежавший цикл — это сбежавший счёт.
- Поверхность ошибок двойная: стандартные сбои (таймаут, 5xx) плюс LLM-специфичные сбои (галлюцинированное имя инструмента, malformed JSON, отказ, успех prompt-injection).
- Аудитируемость — требование комплаенса, а не nice-to-have. Регулируемые команды должны доказать, что сделал агент, когда, с каким промптом и над чьими данными.
Практическое последствие: стандартный APM-дашборд говорит, что прогон агента занял 12 секунд. Он не говорит, что агент сделал 47 LLM-вызовов, чтобы добраться туда, потому что он галлюцинировал имя столбца БД на попытке #3 и вошёл в цикл повторов.
Четыре сигнала, которые вам действительно нужны
1. End-to-end трейсы исполнения
Каждый прогон агента моделируется как дерево: родительская задача → tool calls → LLM round-trips → handoffs дочерним агентам. Латентность на уровне span, статус, входы и выходы. Семантические соглашения OpenTelemetry GenAI сходятся здесь; инструменты, которые их реализуют — Langfuse, Arize Phoenix, Helicone — интероперабельны.
2. Расходы на агента, на задачу, на провайдера
Количество токенов, конвертация в доллары на провайдера и сводки по агенту, проекту и команде. Расходы — это бюджетный сигнал, который должен жёстко обрывать исполнение, а не просто отрисовываться постфактум.
3. Версионирование промптов и моделей
Когда агент регрессировал — это было изменение промпта, апгрейд модели или дрейф вышестоящих данных? Без версионированных промптов, привязанных к прогонам, вы не скажете. Реестры промптов (LangSmith Hub, Langfuse Prompts, Promptlayer) все решают это; runtime должен записывать, какую версию реально использовал каждый прогон.
4. События безопасности
Попытки prompt-injection, отказы ACL, блокировки SSRF, бюджетные cutoffs, срабатывания санитизации unicode. Это события, о которых спрашивают комплаенс-ревьюверы — и события, сигнализирующие об идущей атаке на ваш флот агентов.
Что OpenLegion отслеживает по умолчанию
| Сигнал | Что захватывается | Где увидеть |
|---|---|---|
| Трейс | Каждый tool call, LLM-запрос, agent handoff с таймингом | Mesh-дашборд → Agent Runs |
| Расходы | Токены in/out, долларовая стоимость на провайдера на агента | Дашборд → Cost-панель |
| Промпты | Хэш system prompt, версия, модель, параметры на прогон | Детальный view прогона |
| Безопасность | Отказы ACL, бюджетные cutoffs, блокировки SSRF, срабатывания санитайзера | Дашборд → Security log |
| Здоровье | Использование ресурсов контейнером, mesh-латентность, состояние browser pool | Дашборд → Fleet-панель |
Дашборд — часть open-source runtime — не managed-сервис, на который надо подписываться. Self-hosted развёртывания держат всю телеметрию на вашей инфраструктуре.
Open-Source vs Managed стэки наблюдаемости
Если вы работаете с другим агентным фреймворком, ведущие bolt-on инструменты — LangSmith (экосистема LangChain, managed), Langfuse (open-source, self-hostable), Arize Phoenix (open-source, фокус на evaluation) и Helicone (proxy-based, простая интеграция). Каждый требует кода инструментации в вашем агенте — обернуть LLM-клиентов, добавить callback-обработчики, сконфигурировать trace-экспортёры. Бремя интеграции масштабируется с размером флота.
Mesh OpenLegion по дизайну сидит в call path каждой агентной операции — credential vault, ACL gate, cost tracker и trace recorder colocated в доверенной зоне. Шага инструментации нет. Trade-off: вы внедряете runtime OpenLegion, а не просто слой наблюдаемости.
См. наше сравнение AI-агентных фреймворков для полного ландшафта или страницу vs LangGraph для head-to-head по наблюдаемости конкретно.
Позиция OpenLegion
Наблюдаемость агентов — это новый APM, и AI-экосистема повторяет каждую ошибку, которую APM исправлял десятилетие. Телеметрия фрагментируется по vendor-специфичным SDK. Цены масштабируются с объёмом событий, так что самые загруженные флоты платят больше всех, чтобы наблюдать за собой. «Продвинутые» функции вроде алертинга и retention сидят за enterprise-тарифами. OpenLegion занимает противоположную позицию: дашборд, трейсы, ledger расходов и лог событий безопасности поставляются с AI-агентной платформой, а не как апсейл. Каждый прогон записывает полный трейс по умолчанию, вы self-host данные, владеете retention и можете экспортировать в OpenTelemetry, если хотите всё равно переслать в Datadog или Honeycomb.
Production-агенты нуждаются в production-наблюдаемости — встроенной, а не прикрученной.
Часто задаваемые вопросы
Что такое наблюдаемость AI-агентов?
Наблюдаемость AI-агентов — это структурированная запись runtime-поведения автономного агента: tool calls, LLM-вызовы, версии промптов, расходы и события безопасности — чтобы инженеры могли отлаживать сбои, оптимизировать расходы и аудировать решения. Она отличается от традиционного APM, потому что control flow агента решается LLM, а не написанным вручную кодом.
Чем наблюдаемость AI-агентов отличается от LLM-наблюдаемости?
LLM-наблюдаемость отслеживает отдельные вызовы модели — промпт, ответ, латентность, стоимость токенов. Наблюдаемость AI-агентов отслеживает полный граф исполнения, который агент проходит для завершения задачи, обычно включающий много LLM-вызовов плюс tool calls, передачи другим агентам, повторы и мутации состояния. LLM-наблюдаемость — подмножество агентной наблюдаемости.
Нужен ли мне отдельный инструмент наблюдаемости, если я уже на Datadog?
Datadog и аналогичные APM-инструменты хорошо обрабатывают латентность, ошибки и использование ресурсов, но они нативно не понимают стоимость LLM-токенов, версионирование промптов или семантику трейсов агентов. Большинство команд пары agent-native инструмент наблюдаемости (Langfuse, Arize Phoenix, LangSmith) со своим существующим APM или внедряют runtime вроде OpenLegion, который поставляет телеметрию встроенно и может экспортировать OpenTelemetry в любой APM, который они уже используют.
Что отслеживать для наблюдаемости расходов AI-агентов?
Отслеживайте количество токенов (вход и выход) на провайдера на агента на прогон, долларовую стоимость, рассчитанную по текущим ценам провайдера, ежедневные и месячные сводки на агента и события бюджетного cutoff, когда агент останавливается за превышение выделения. Без cap бюджета на агента даже превосходная наблюдаемость лишь говорит вам о runaway после того, как пришёл счёт.
Какие события безопасности должна захватывать наблюдаемость AI-агентов?
Как минимум: детекция prompt-injection, отказы ACL (агент попытался операцию вне границы разрешений), блокировки SSRF, срабатывания санитизации unicode и path-traversal, бюджетные cutoffs и логи доступа к credential vault. Это события, о которых спрашивают комплаенс-ревьюверы, и события, сигнализирующие об активной атаке на ваш флот агентов.
Как сравнить наблюдаемость OpenLegion с LangSmith?
LangSmith — managed-сервис наблюдаемости для экосистемы LangChain — сильные функции трейсинга, evaluation и управления промптами. Дашборд OpenLegion поставляется с самим runtime, self-hosted по умолчанию и записывает те же сигналы (трейсы, расходы, промпты, события безопасности) без требования инструментации в коде вашего агента. LangSmith интегрируется с любым фреймворком, который его внедряет; наблюдаемость OpenLegion работает автоматически внутри runtime OpenLegion.