AI 代理可觀測性:在生產環境該追蹤什麼

AI 代理可觀測性 是一門記錄自主代理每一次工具呼叫、每一次 LLM 呼叫,以及每一塊錢支出的學科 — 捕捉傳統 APM 從未需要處理的不確定性決策、累積成本與提示注入嘗試。沒有它,生產艦隊就只能憑信念運作,單一卡住的代理可能在任何人注意到帳單前燒掉數小時的運算資源。

什麼是 AI 代理可觀測性?

AI 代理可觀測性是從自主 AI 代理捕捉結構化遙測 — 執行追蹤、token 支出、提示版本、工具呼叫稽核與安全事件 — 讓工程師能夠對生產中的代理進行除錯、治理與最佳化的學科。

重點摘要

代理可觀測性比應用程式可觀測性更困難,因為代理的控制流是由 LLM 在執行時決定,而非由手寫程式碼決定。
四個訊號很重要:端到端追蹤、每代理成本、提示與模型版本管理,以及安全事件捕捉(提示注入嘗試、ACL 拒絕、預算截止)。
多數代理框架不附帶內建可觀測性 — 團隊額外接上 LangSmith、Langfuse 或 Arize Phoenix,然後在第一次生產事故後才發現落差。
OpenLegion 的網狀儀表板預設記錄每次工具呼叫、LLM 請求、成本明細與安全事件 — 無需檢測程式碼、無需第三方代理整合。
成本可觀測性是你不知道自己花了多少錢的預算:沒有每代理上限,單一卡住的代理可在一夜之間燒掉數百美元的 API 呼叫。

為何 AI 代理可觀測性與眾不同

Datadog、Honeycomb、New Relic — 每個傳統 APM 工具都建立於兩個假設上:程式碼路徑是確定性的,且請求處理常式由人類撰寫。自主代理打破兩者,具體有四種方式:

控制流是生成的,而非編寫的。代理在執行時決定是否呼叫工具、重試、交棒給其他代理或放棄。
成本預設無界限。每次 LLM 呼叫可串連更多呼叫。沒有每代理預算上限,失控的迴圈就是失控的帳單。
錯誤面雙重:標準失敗(逾時、5xx)加上 LLM 特有失敗(幻覺工具名稱、格式錯誤的 JSON、拒答、提示注入成功)。
可稽核性是合規需求,不是錦上添花。受監管團隊必須能證明代理在何時、用什麼提示、對誰的資料、做了什麼。

實際結果:標準 APM 儀表板告訴你代理執行花了 12 秒。但它不會告訴你,代理為達成此事做了 47 次 LLM 呼叫,因為第三次嘗試時幻覺了一個資料庫欄位名稱並陷入重試迴圈。

你實際需要的四個訊號

1. 端到端執行追蹤

每次代理執行建模為一棵樹:父任務 → 工具呼叫 → LLM 往返 → 子代理交棒。具備 span 等級的延遲、狀態、輸入與輸出。OpenTelemetry 的 GenAI 語意慣例正在此匯聚;實作該慣例的工具 — Langfuse、Arize Phoenix、Helicone — 彼此可互通。

2. 每代理、每任務、每供應商的成本

token 計數、各供應商的美元換算,以及依代理、專案、團隊匯總。成本是應該硬性截斷執行的預算訊號,而不只是事後繪圖。

3. 提示與模型版本管理

當代理退步時,是提示變更、模型升級,還是上游資料漂移?若沒有與執行綁定的版本化提示,你無從分辨。提示登錄(LangSmith Hub、Langfuse Prompts、Promptlayer)都能解決;執行環境得記錄每次執行實際使用的版本。

4. 安全事件

提示注入嘗試、ACL 拒絕、SSRF 封鎖、預算截止、unicode 清理命中。這些是合規審查者會問的事件 — 也是顯示有針對你代理艦隊進行中攻擊的事件。

OpenLegion 預設追蹤的項目

訊號	捕捉內容	查看位置
追蹤	每次工具呼叫、LLM 請求、代理交棒,含計時	網狀儀表板 → Agent Runs
成本	每代理每供應商的進出 token、美元成本	儀表板 → Cost panel
提示	每次執行的系統提示雜湊、版本、模型、參數	每次執行詳情檢視
安全	ACL 拒絕、預算截止、SSRF 封鎖、清理器命中	儀表板 → Security log
健康	容器資源使用、網狀延遲、瀏覽器池狀態	儀表板 → Fleet panel

儀表板屬於開源執行環境的一部分 — 不是必須訂閱的代管服務。自我託管部署可將所有遙測保留在你的基礎設施內。

開源 vs 代管可觀測性堆疊

若你正在執行不同的代理框架,主流的外掛工具有 LangSmith(LangChain 生態圈,代管)、Langfuse(開源、可自我託管)、Arize Phoenix(開源、聚焦評估),以及 Helicone(基於代理、整合簡單)。每個都需要在你的代理中加入檢測程式碼 — 包裝 LLM 客戶端、新增 callback handler、設定追蹤匯出器。整合負擔隨艦隊規模擴大。

OpenLegion 的網狀架構在設計上位於每個代理操作的呼叫路徑中 — 憑證金庫、ACL 閘道、成本追蹤器與追蹤記錄器全都同處於信任區。沒有檢測步驟。取捨:你採用 OpenLegion 執行環境,而非僅可觀測性層。

完整版圖請參閱我們的 AI 代理框架比較,或專門針對可觀測性的 vs LangGraph 頁面。

OpenLegion 的觀點

代理可觀測性是新的 APM — 而 AI 生態圈正在重複 APM 花十年才修好的每一個錯誤。遙測在廠商特定 SDK 間分裂。定價隨事件量擴大,因此最忙碌的艦隊得付最多錢來觀察自己。「進階」功能如警示與保留期限隱身在企業階層之後。OpenLegion 採相反姿態:儀表板、追蹤、成本帳本與安全事件日誌隨 AI 代理平台一同提供,而非當作加價項。每次執行預設記錄完整追蹤,你自我託管資料、你擁有保留期限,而且若你想要把資料轉發到 Datadog 或 Honeycomb,可以匯出至 OpenTelemetry。

生產代理需要生產級可觀測性 — 內建,而非外掛。

立即開始閱讀文件

常見問題

什麼是 AI 代理可觀測性?

AI 代理可觀測性是對自主代理執行行為的結構化記錄 — 工具呼叫、LLM 呼叫、提示版本、成本與安全事件 — 讓工程師能對失敗除錯、最佳化成本與稽核決策。它與傳統 APM 不同,因為代理的控制流是由 LLM 決定,而非由手寫程式碼決定。

AI 代理可觀測性與 LLM 可觀測性有何不同?

LLM 可觀測性追蹤個別模型呼叫 — 提示、回應、延遲、token 成本。AI 代理可觀測性則追蹤代理完成任務所走過的完整執行圖,通常涉及多次 LLM 呼叫加上工具呼叫、交棒給其他代理、重試與狀態變更。LLM 可觀測性是代理可觀測性的子集。

我已經有 Datadog,還需要單獨的可觀測性工具嗎?

Datadog 與類似 APM 工具能良好處理延遲、錯誤與資源使用,但它們不原生理解 LLM token 成本、提示版本或代理追蹤語意。多數團隊會將代理原生的可觀測性工具(Langfuse、Arize Phoenix、LangSmith)與既有 APM 並用,或採用像 OpenLegion 這類內建遙測且可匯出 OpenTelemetry 至既有 APM 的執行環境。

AI 代理成本可觀測性該追蹤什麼?

追蹤每代理每執行每供應商的 token 計數(輸入與輸出)、以當前供應商定價換算的美元成本、每代理每日與每月匯總,以及代理因超過配額被停止的預算截止事件。若沒有每代理預算上限,即便有絕佳的可觀測性,也只是等帳單來才告知你發生失控。

AI 代理可觀測性應捕捉哪些安全事件?

至少要有:提示注入偵測、ACL 拒絕(代理嘗試了權限邊界外的操作)、SSRF 封鎖、unicode 與路徑遍歷清理命中、預算截止,以及憑證金庫存取記錄。這些是合規審查者會問的事件,也是顯示有針對你代理艦隊進行中攻擊的事件。

OpenLegion 的可觀測性與 LangSmith 相比如何?

LangSmith 是 LangChain 生態圈的代管可觀測性服務 — 具有強大的追蹤、評估與提示管理功能。OpenLegion 的儀表板隨執行環境本身提供,預設為自我託管,並記錄相同訊號(追蹤、成本、提示、安全事件),且不需在代理程式碼中加入檢測。LangSmith 整合任何採用它的框架;OpenLegion 可觀測性則在 OpenLegion 執行環境內自動運作。