Наблюдаемость AI-агентов: что отслеживать в production

Наблюдаемость AI-агентов — это дисциплина регистрации каждого tool call, каждого LLM-вызова и каждого доллара, который автономный агент тратит — захватывая недетерминированные решения, накопительную стоимость и попытки prompt-injection, с которыми традиционный APM никогда не имел дела. Без неё production-флот работает на вере, и один зависший агент может сжечь часы compute, прежде чем кто-то заметит счёт.

Что такое наблюдаемость AI-агентов?

Наблюдаемость AI-агентов — это дисциплина захвата структурированной телеметрии от автономных AI-агентов — трейсы исполнения, расходы на токены, версии промптов, аудит tool calls и события безопасности — чтобы инженеры могли отлаживать, управлять и оптимизировать агентов в production.

Кратко

Наблюдаемость агентов сложнее наблюдаемости приложений, потому что control flow агента решается LLM в runtime, а не написанным вручную кодом.
Имеют значение четыре сигнала: end-to-end трейсы, расходы на агента, версионирование промптов и моделей и захват событий безопасности (попытки prompt-injection, отказы ACL, бюджетные cutoffs).
Большинство агентных фреймворков поставляются без встроенной наблюдаемости — команды прикручивают LangSmith, Langfuse или Arize Phoenix и обнаруживают пробелы после первого production-инцидента.
Mesh-дашборд OpenLegion записывает каждый tool call, LLM-запрос, строку расходов и событие безопасности по умолчанию — без кода инструментации, без сторонней агентной интеграции.
Наблюдаемость расходов — это бюджет, о котором вы не знали, что тратите: без cap на агента один зависший агент может сжечь сотни долларов в API-вызовах за ночь.

Почему наблюдаемость AI-агентов отличается

Datadog, Honeycomb, New Relic — каждый традиционный APM-инструмент построен на двух предположениях: пути исполнения кода детерминированы, а обработчики запросов написаны человеком. Автономные агенты ломают оба четырьмя конкретными способами:

Control flow генерируется, а не пишется. Агент решает в runtime, вызывать ли инструмент, повторять, передавать другому агенту или сдаваться.
Стоимость не ограничена по умолчанию. Каждый LLM-вызов может цепляться к большему числу вызовов. Без cap бюджета на агента сбежавший цикл — это сбежавший счёт.
Поверхность ошибок двойная: стандартные сбои (таймаут, 5xx) плюс LLM-специфичные сбои (галлюцинированное имя инструмента, malformed JSON, отказ, успех prompt-injection).
Аудитируемость — требование комплаенса, а не nice-to-have. Регулируемые команды должны доказать, что сделал агент, когда, с каким промптом и над чьими данными.

Практическое последствие: стандартный APM-дашборд говорит, что прогон агента занял 12 секунд. Он не говорит, что агент сделал 47 LLM-вызовов, чтобы добраться туда, потому что он галлюцинировал имя столбца БД на попытке #3 и вошёл в цикл повторов.

Четыре сигнала, которые вам действительно нужны

1. End-to-end трейсы исполнения

Каждый прогон агента моделируется как дерево: родительская задача → tool calls → LLM round-trips → handoffs дочерним агентам. Латентность на уровне span, статус, входы и выходы. Семантические соглашения OpenTelemetry GenAI сходятся здесь; инструменты, которые их реализуют — Langfuse, Arize Phoenix, Helicone — интероперабельны.

2. Расходы на агента, на задачу, на провайдера

Количество токенов, конвертация в доллары на провайдера и сводки по агенту, проекту и команде. Расходы — это бюджетный сигнал, который должен жёстко обрывать исполнение, а не просто отрисовываться постфактум.

3. Версионирование промптов и моделей

Когда агент регрессировал — это было изменение промпта, апгрейд модели или дрейф вышестоящих данных? Без версионированных промптов, привязанных к прогонам, вы не скажете. Реестры промптов (LangSmith Hub, Langfuse Prompts, Promptlayer) все решают это; runtime должен записывать, какую версию реально использовал каждый прогон.

4. События безопасности

Попытки prompt-injection, отказы ACL, блокировки SSRF, бюджетные cutoffs, срабатывания санитизации unicode. Это события, о которых спрашивают комплаенс-ревьюверы — и события, сигнализирующие об идущей атаке на ваш флот агентов.

Что OpenLegion отслеживает по умолчанию

Сигнал	Что захватывается	Где увидеть
Трейс	Каждый tool call, LLM-запрос, agent handoff с таймингом	Mesh-дашборд → Agent Runs
Расходы	Токены in/out, долларовая стоимость на провайдера на агента	Дашборд → Cost-панель
Промпты	Хэш system prompt, версия, модель, параметры на прогон	Детальный view прогона
Безопасность	Отказы ACL, бюджетные cutoffs, блокировки SSRF, срабатывания санитайзера	Дашборд → Security log
Здоровье	Использование ресурсов контейнером, mesh-латентность, состояние browser pool	Дашборд → Fleet-панель

Дашборд — часть open-source runtime — не managed-сервис, на который надо подписываться. Self-hosted развёртывания держат всю телеметрию на вашей инфраструктуре.

Open-Source vs Managed стэки наблюдаемости

Если вы работаете с другим агентным фреймворком, ведущие bolt-on инструменты — LangSmith (экосистема LangChain, managed), Langfuse (open-source, self-hostable), Arize Phoenix (open-source, фокус на evaluation) и Helicone (proxy-based, простая интеграция). Каждый требует кода инструментации в вашем агенте — обернуть LLM-клиентов, добавить callback-обработчики, сконфигурировать trace-экспортёры. Бремя интеграции масштабируется с размером флота.

Mesh OpenLegion по дизайну сидит в call path каждой агентной операции — credential vault, ACL gate, cost tracker и trace recorder colocated в доверенной зоне. Шага инструментации нет. Trade-off: вы внедряете runtime OpenLegion, а не просто слой наблюдаемости.

См. наше сравнение AI-агентных фреймворков для полного ландшафта или страницу vs LangGraph для head-to-head по наблюдаемости конкретно.

Позиция OpenLegion

Наблюдаемость агентов — это новый APM, и AI-экосистема повторяет каждую ошибку, которую APM исправлял десятилетие. Телеметрия фрагментируется по vendor-специфичным SDK. Цены масштабируются с объёмом событий, так что самые загруженные флоты платят больше всех, чтобы наблюдать за собой. «Продвинутые» функции вроде алертинга и retention сидят за enterprise-тарифами. OpenLegion занимает противоположную позицию: дашборд, трейсы, ledger расходов и лог событий безопасности поставляются с AI-агентной платформой, а не как апсейл. Каждый прогон записывает полный трейс по умолчанию, вы self-host данные, владеете retention и можете экспортировать в OpenTelemetry, если хотите всё равно переслать в Datadog или Honeycomb.

Production-агенты нуждаются в production-наблюдаемости — встроенной, а не прикрученной.

Начать Документация

Часто задаваемые вопросы

Что такое наблюдаемость AI-агентов?

Наблюдаемость AI-агентов — это структурированная запись runtime-поведения автономного агента: tool calls, LLM-вызовы, версии промптов, расходы и события безопасности — чтобы инженеры могли отлаживать сбои, оптимизировать расходы и аудировать решения. Она отличается от традиционного APM, потому что control flow агента решается LLM, а не написанным вручную кодом.

Чем наблюдаемость AI-агентов отличается от LLM-наблюдаемости?

LLM-наблюдаемость отслеживает отдельные вызовы модели — промпт, ответ, латентность, стоимость токенов. Наблюдаемость AI-агентов отслеживает полный граф исполнения, который агент проходит для завершения задачи, обычно включающий много LLM-вызовов плюс tool calls, передачи другим агентам, повторы и мутации состояния. LLM-наблюдаемость — подмножество агентной наблюдаемости.

Нужен ли мне отдельный инструмент наблюдаемости, если я уже на Datadog?

Datadog и аналогичные APM-инструменты хорошо обрабатывают латентность, ошибки и использование ресурсов, но они нативно не понимают стоимость LLM-токенов, версионирование промптов или семантику трейсов агентов. Большинство команд пары agent-native инструмент наблюдаемости (Langfuse, Arize Phoenix, LangSmith) со своим существующим APM или внедряют runtime вроде OpenLegion, который поставляет телеметрию встроенно и может экспортировать OpenTelemetry в любой APM, который они уже используют.

Что отслеживать для наблюдаемости расходов AI-агентов?

Отслеживайте количество токенов (вход и выход) на провайдера на агента на прогон, долларовую стоимость, рассчитанную по текущим ценам провайдера, ежедневные и месячные сводки на агента и события бюджетного cutoff, когда агент останавливается за превышение выделения. Без cap бюджета на агента даже превосходная наблюдаемость лишь говорит вам о runaway после того, как пришёл счёт.

Какие события безопасности должна захватывать наблюдаемость AI-агентов?

Как минимум: детекция prompt-injection, отказы ACL (агент попытался операцию вне границы разрешений), блокировки SSRF, срабатывания санитизации unicode и path-traversal, бюджетные cutoffs и логи доступа к credential vault. Это события, о которых спрашивают комплаенс-ревьюверы, и события, сигнализирующие об активной атаке на ваш флот агентов.

Как сравнить наблюдаемость OpenLegion с LangSmith?

LangSmith — managed-сервис наблюдаемости для экосистемы LangChain — сильные функции трейсинга, evaluation и управления промптами. Дашборд OpenLegion поставляется с самим runtime, self-hosted по умолчанию и записывает те же сигналы (трейсы, расходы, промпты, события безопасности) без требования инструментации в коде вашего агента. LangSmith интегрируется с любым фреймворком, который его внедряет; наблюдаемость OpenLegion работает автоматически внутри runtime OpenLegion.