AI 智能体可观测性:生产环境中要追踪什么
AI 智能体可观测性是记录自主智能体每一次工具调用、每一次 LLM 调用、每一笔花费的学科——捕捉传统 APM 从未需要处理的非确定性决策、累积成本和提示注入尝试。如果没有可观测性,生产舰队就只能凭信念运行,而一个卡住的智能体在有人注意到账单之前,可能已经烧掉好几个小时的计算资源。
什么是 AI 智能体可观测性?
AI 智能体可观测性是从自主 AI 智能体捕捉结构化遥测的学科——执行追踪、token 消耗、提示版本、工具调用审计和安全事件——让工程师可以在生产环境中调试、治理和优化智能体。
摘要
- 智能体可观测性比应用可观测性更难,因为智能体的控制流由 LLM 在运行时决定,而不是由手写代码决定。
- 四个关键信号:端到端追踪、单智能体成本、提示和模型版本管理,以及安全事件捕捉(提示注入尝试、ACL 拒绝、预算截止)。
- 大多数智能体框架不附带内置可观测性 —— 团队会附加 LangSmith、Langfuse 或 Arize Phoenix,并在第一次生产事故后才发现缺口。
- OpenLegion 的 mesh 仪表板默认记录每次工具调用、LLM 请求、成本项和安全事件 —— 无需埋点代码,无需第三方智能体集成。
- 成本可观测性就是你不知道自己在花的预算:没有单智能体上限,一个卡住的智能体一夜之间就能烧掉数百美元 API 调用。
为什么 AI 智能体可观测性与众不同
Datadog、Honeycomb、New Relic——每一款传统 APM 工具都建立在两个假设之上:代码路径是确定的,请求处理器由人编写。自主智能体在四个具体方面打破了这两条:
- 控制流是生成的,而非编码的。智能体在运行时决定是否调用工具、重试、交接给另一个智能体,还是放弃。
- 成本默认无界。 每次 LLM 调用都可能链接到更多调用。没有单智能体预算上限,失控循环就是失控账单。
- 错误面是双重的:标准故障(超时、5xx)加上 LLM 特定故障(幻觉的工具名、错误的 JSON、拒绝执行、提示注入成功)。
- 可审计性是合规要求,而不是"有则更好"。受监管团队需要证明智能体做了什么、在何时、用了哪份提示词、处理了谁的数据。
实际后果:标准 APM 仪表板告诉你智能体这次运行用了 12 秒。它不会告诉你智能体到达终点之前做了 47 次 LLM 调用,因为它在第 3 次尝试时幻觉了一个数据库列名,进入了重试循环。
你真正需要的四个信号
1. 端到端执行追踪
将每次智能体运行建模为一棵树:父任务 → 工具调用 → LLM 往返 → 子智能体交接。span 级别的延迟、状态、输入和输出。OpenTelemetry 的 GenAI 语义约定正在该方向收敛;实现它们的工具——Langfuse、Arize Phoenix、Helicone——可以互通。
2. 单智能体、单任务、单提供商的成本
按提供商的 token 数、美元换算,以及按智能体、项目和团队的汇总。成本是应该硬性切断执行的预算信号,而不是事后才在图表上画一画。
3. 提示与模型版本管理
当智能体出现回退时,是因为提示词变更、模型升级,还是上游数据漂移?没有与运行绑定的版本化提示词,你无从判断。提示注册中心(LangSmith Hub、Langfuse Prompts、Promptlayer)都能解决这个问题;运行时必须记录每次运行实际使用了哪个版本。
4. 安全事件
提示注入尝试、ACL 拒绝、SSRF 阻断、预算截止、Unicode 净化命中。这些都是合规审查者会问到的事件——也是预示对智能体舰队正在进行攻击的事件。
OpenLegion 默认追踪什么
| 信号 | 捕捉内容 | 在哪查看 |
|---|---|---|
| 追踪 | 每次工具调用、LLM 请求、智能体交接及时序 | Mesh 仪表板 → Agent Runs |
| 成本 | 输入/输出 token、按提供商和智能体的美元成本 | 仪表板 → 成本面板 |
| 提示词 | 每次运行的系统提示词哈希、版本、模型、参数 | 单次运行详情视图 |
| 安全 | ACL 拒绝、预算截止、SSRF 阻断、净化器命中 | 仪表板 → 安全日志 |
| 健康 | 容器资源占用、mesh 延迟、浏览器池状态 | 仪表板 → 舰队面板 |
仪表板是开源运行时的一部分——不是你必须订阅的托管服务。自托管部署可以让所有遥测数据保留在你的基础设施中。
开源 vs 托管可观测性栈
如果你运行的是其他智能体框架,主流的附加工具是 LangSmith(LangChain 生态,托管)、Langfuse(开源,可自托管)、Arize Phoenix(开源,专注评估)和 Helicone(基于代理,集成简单)。每一个都需要在智能体中加埋点代码——包装 LLM 客户端、添加回调处理器、配置追踪导出器。集成负担随舰队规模线性增加。
OpenLegion 的 mesh 在设计上位于每次智能体操作的调用路径上——凭证密钥库、ACL 关卡、成本追踪器和追踪记录器都同处于受信区域。无需埋点步骤。代价:你采用的是 OpenLegion 运行时,而不仅仅是一个可观测层。
如需完整全景,请参见我们的 AI 智能体框架对比;如需可观测性方面的一对一,请参见 vs LangGraph 页面。
OpenLegion 的看法
智能体可观测性是新的 APM——而 AI 生态正在重蹈 APM 花十年才修好的每一个错误。遥测在厂商专有 SDK 之间碎片化。定价随事件量增长,最繁忙的舰队为观察自己付出最多。告警和保留这类"高级"功能藏在企业层级背后。OpenLegion 持相反立场:仪表板、追踪、成本台账和安全事件日志随 AI 智能体平台 一起交付,而不是另外加价。每次运行默认记录完整追踪,你自托管数据、你拥有保留策略,如果你想把数据转发到 Datadog 或 Honeycomb,也可以导出为 OpenTelemetry。
生产级智能体需要生产级可观测性——内置,而非外挂。
常见问题
什么是 AI 智能体可观测性?
AI 智能体可观测性是对自主智能体运行时行为的结构化记录——工具调用、LLM 调用、提示版本、成本和安全事件——以便工程师调试故障、优化成本和审计决策。它与传统 APM 不同,因为智能体的控制流由 LLM 决定,而不是手写代码。
AI 智能体可观测性与 LLM 可观测性有什么不同?
LLM 可观测性追踪单个模型调用——提示词、响应、延迟、token 成本。AI 智能体可观测性追踪智能体完成任务所遍历的完整执行图,通常涉及多次 LLM 调用加上工具调用、向其他智能体的交接、重试和状态变更。LLM 可观测性是智能体可观测性的子集。
如果我已经用了 Datadog,还需要单独的可观测性工具吗?
Datadog 等 APM 工具能很好地处理延迟、错误和资源使用,但它们原生不理解 LLM token 成本、提示版本管理或智能体追踪语义。多数团队会让智能体原生可观测工具(Langfuse、Arize Phoenix、LangSmith)与现有 APM 并存,或者采用像 OpenLegion 这样内置遥测、可导出 OpenTelemetry 到他们已运行的任何 APM 的运行时。
AI 智能体成本可观测性应跟踪什么?
按提供商、智能体、运行追踪输入和输出的 token 数;按当前提供商定价计算的美元成本;单智能体的日和月汇总;以及智能体因超出额度而被停止时的预算截止事件。如果没有单智能体预算上限,即使有出色的可观测性,也只能在账单到来后才告诉你失控的情况。
AI 智能体可观测性应捕捉哪些安全事件?
至少包括:提示注入检测、ACL 拒绝(智能体尝试了超出权限边界的操作)、SSRF 阻断、Unicode 与路径穿越净化命中、预算截止,以及凭证密钥库访问日志。这些是合规审查者会问的事件,也是预示对智能体舰队正在进行攻击的事件。
OpenLegion 的可观测性与 LangSmith 相比如何?
LangSmith 是面向 LangChain 生态的托管可观测性服务——具备强大的追踪、评估和提示管理功能。OpenLegion 的仪表板与运行时一起交付,默认自托管,无需在你的智能体代码中埋点即可记录相同的信号(追踪、成本、提示词、安全事件)。LangSmith 可以跨任何采纳它的框架集成;OpenLegion 的可观测性在 OpenLegion 运行时内部自动生效。