AI 智能体可观测性：生产环境中要追踪什么

AI 智能体可观测性是记录自主智能体每一次工具调用、每一次 LLM 调用、每一笔花费的学科——捕捉传统 APM 从未需要处理的非确定性决策、累积成本和提示注入尝试。如果没有可观测性，生产舰队就只能凭信念运行，而一个卡住的智能体在有人注意到账单之前，可能已经烧掉好几个小时的计算资源。

什么是 AI 智能体可观测性？

AI 智能体可观测性是从自主 AI 智能体捕捉结构化遥测的学科——执行追踪、token 消耗、提示版本、工具调用审计和安全事件——让工程师可以在生产环境中调试、治理和优化智能体。

摘要

智能体可观测性比应用可观测性更难，因为智能体的控制流由 LLM 在运行时决定，而不是由手写代码决定。
四个关键信号：端到端追踪、单智能体成本、提示和模型版本管理，以及安全事件捕捉（提示注入尝试、ACL 拒绝、预算截止）。
大多数智能体框架不附带内置可观测性 —— 团队会附加 LangSmith、Langfuse 或 Arize Phoenix，并在第一次生产事故后才发现缺口。
OpenLegion 的 mesh 仪表板默认记录每次工具调用、LLM 请求、成本项和安全事件 —— 无需埋点代码，无需第三方智能体集成。
成本可观测性就是你不知道自己在花的预算：没有单智能体上限，一个卡住的智能体一夜之间就能烧掉数百美元 API 调用。

为什么 AI 智能体可观测性与众不同

Datadog、Honeycomb、New Relic——每一款传统 APM 工具都建立在两个假设之上：代码路径是确定的，请求处理器由人编写。自主智能体在四个具体方面打破了这两条：

控制流是生成的，而非编码的。智能体在运行时决定是否调用工具、重试、交接给另一个智能体，还是放弃。
成本默认无界。 每次 LLM 调用都可能链接到更多调用。没有单智能体预算上限，失控循环就是失控账单。
错误面是双重的：标准故障（超时、5xx）加上 LLM 特定故障（幻觉的工具名、错误的 JSON、拒绝执行、提示注入成功）。
可审计性是合规要求，而不是"有则更好"。受监管团队需要证明智能体做了什么、在何时、用了哪份提示词、处理了谁的数据。

实际后果：标准 APM 仪表板告诉你智能体这次运行用了 12 秒。它不会告诉你智能体到达终点之前做了 47 次 LLM 调用，因为它在第 3 次尝试时幻觉了一个数据库列名，进入了重试循环。

你真正需要的四个信号

1. 端到端执行追踪

将每次智能体运行建模为一棵树：父任务 → 工具调用 → LLM 往返 → 子智能体交接。span 级别的延迟、状态、输入和输出。OpenTelemetry 的 GenAI 语义约定正在该方向收敛；实现它们的工具——Langfuse、Arize Phoenix、Helicone——可以互通。

2. 单智能体、单任务、单提供商的成本

按提供商的 token 数、美元换算，以及按智能体、项目和团队的汇总。成本是应该硬性切断执行的预算信号，而不是事后才在图表上画一画。

3. 提示与模型版本管理

当智能体出现回退时，是因为提示词变更、模型升级，还是上游数据漂移？没有与运行绑定的版本化提示词，你无从判断。提示注册中心（LangSmith Hub、Langfuse Prompts、Promptlayer）都能解决这个问题；运行时必须记录每次运行实际使用了哪个版本。

4. 安全事件

提示注入尝试、ACL 拒绝、SSRF 阻断、预算截止、Unicode 净化命中。这些都是合规审查者会问到的事件——也是预示对智能体舰队正在进行攻击的事件。

OpenLegion 默认追踪什么

信号	捕捉内容	在哪查看
追踪	每次工具调用、LLM 请求、智能体交接及时序	Mesh 仪表板 → Agent Runs
成本	输入/输出 token、按提供商和智能体的美元成本	仪表板 → 成本面板
提示词	每次运行的系统提示词哈希、版本、模型、参数	单次运行详情视图
安全	ACL 拒绝、预算截止、SSRF 阻断、净化器命中	仪表板 → 安全日志
健康	容器资源占用、mesh 延迟、浏览器池状态	仪表板 → 舰队面板

仪表板是开源运行时的一部分——不是你必须订阅的托管服务。自托管部署可以让所有遥测数据保留在你的基础设施中。

开源 vs 托管可观测性栈

如果你运行的是其他智能体框架，主流的附加工具是 LangSmith（LangChain 生态，托管）、Langfuse（开源，可自托管）、Arize Phoenix（开源，专注评估）和 Helicone（基于代理，集成简单）。每一个都需要在智能体中加埋点代码——包装 LLM 客户端、添加回调处理器、配置追踪导出器。集成负担随舰队规模线性增加。

OpenLegion 的 mesh 在设计上位于每次智能体操作的调用路径上——凭证密钥库、ACL 关卡、成本追踪器和追踪记录器都同处于受信区域。无需埋点步骤。代价：你采用的是 OpenLegion 运行时，而不仅仅是一个可观测层。

如需完整全景，请参见我们的 AI 智能体框架对比；如需可观测性方面的一对一，请参见 vs LangGraph 页面。

OpenLegion 的看法

智能体可观测性是新的 APM——而 AI 生态正在重蹈 APM 花十年才修好的每一个错误。遥测在厂商专有 SDK 之间碎片化。定价随事件量增长，最繁忙的舰队为观察自己付出最多。告警和保留这类"高级"功能藏在企业层级背后。OpenLegion 持相反立场：仪表板、追踪、成本台账和安全事件日志随 AI 智能体平台一起交付，而不是另外加价。每次运行默认记录完整追踪，你自托管数据、你拥有保留策略，如果你想把数据转发到 Datadog 或 Honeycomb，也可以导出为 OpenTelemetry。

生产级智能体需要生产级可观测性——内置，而非外挂。

立即开始阅读文档

常见问题

什么是 AI 智能体可观测性？

AI 智能体可观测性是对自主智能体运行时行为的结构化记录——工具调用、LLM 调用、提示版本、成本和安全事件——以便工程师调试故障、优化成本和审计决策。它与传统 APM 不同，因为智能体的控制流由 LLM 决定，而不是手写代码。

AI 智能体可观测性与 LLM 可观测性有什么不同？

LLM 可观测性追踪单个模型调用——提示词、响应、延迟、token 成本。AI 智能体可观测性追踪智能体完成任务所遍历的完整执行图，通常涉及多次 LLM 调用加上工具调用、向其他智能体的交接、重试和状态变更。LLM 可观测性是智能体可观测性的子集。

如果我已经用了 Datadog，还需要单独的可观测性工具吗？

Datadog 等 APM 工具能很好地处理延迟、错误和资源使用，但它们原生不理解 LLM token 成本、提示版本管理或智能体追踪语义。多数团队会让智能体原生可观测工具（Langfuse、Arize Phoenix、LangSmith）与现有 APM 并存，或者采用像 OpenLegion 这样内置遥测、可导出 OpenTelemetry 到他们已运行的任何 APM 的运行时。

AI 智能体成本可观测性应跟踪什么？

按提供商、智能体、运行追踪输入和输出的 token 数；按当前提供商定价计算的美元成本；单智能体的日和月汇总；以及智能体因超出额度而被停止时的预算截止事件。如果没有单智能体预算上限，即使有出色的可观测性，也只能在账单到来后才告诉你失控的情况。

AI 智能体可观测性应捕捉哪些安全事件？

至少包括：提示注入检测、ACL 拒绝（智能体尝试了超出权限边界的操作）、SSRF 阻断、Unicode 与路径穿越净化命中、预算截止，以及凭证密钥库访问日志。这些是合规审查者会问的事件，也是预示对智能体舰队正在进行攻击的事件。

OpenLegion 的可观测性与 LangSmith 相比如何？

LangSmith 是面向 LangChain 生态的托管可观测性服务——具备强大的追踪、评估和提示管理功能。OpenLegion 的仪表板与运行时一起交付，默认自托管，无需在你的智能体代码中埋点即可记录相同的信号（追踪、成本、提示词、安全事件）。LangSmith 可以跨任何采纳它的框架集成；OpenLegion 的可观测性在 OpenLegion 运行时内部自动生效。