AI智能代理評估：基準測試、指標與測試

AI智能代理評估是系統性衡量代理是否正確完成任務、安全呼叫工具並在多步驟執行追蹤中維持成本與延遲預算的實踐，而不僅僅是單次LLM呼叫。為語言模型設計的單輪基準測試忽略了代理系統中出現的累積失敗模式：步驟成功率90%在五次循序工具呼叫後會降至約59%。

AI智能代理評估是一門軟體測試學科，透過基準測試套件、記錄的追蹤重放和LLM-as-judge評分器，評估自主AI系統在任務完成率、工具呼叫正確性、軌跡長度效率、安全護欄遵守和每任務成本等維度的表現。

為什麼單輪LLM基準測試在代理中失敗

多步驟工具鏈中的累積錯誤

MMLU等單輪基準測試測量孤立問題的單次準確率。代理的運作方式不同：每次工具呼叫取決於前一次的結果，錯誤會傳播。在步驟可靠性90%時，五步工具鏈只有59%的機率無錯誤完成（0.9⁵ ≈ 0.59）。在80%時，降至33%。

這種累積動態意味著在步驟級指標上看起來可接受的代理在端對端生產中可能不可靠。唯一有意義的測量是軌跡級任務完成率。

Task-Pass@k的適應

Pass@k在HumanEval（2021年）中被引入用於測量程式碼生成。對於代理，同樣的原則適用於軌跡級別。低pass@1配合高pass@3是特定的失敗訊號：代理可以解決任務，但無法可靠地完成。

MMLU和HumanEval遺漏了什麼

MMLU測試事實記憶。HumanEval測試孤立的函數級程式碼生成。兩者都不測試生產代理實際做的事：使用真實工具輸出的多步推理、意外工具結果的錯誤恢復以及長軌跡中的成本管理。

OpenLegion的觀點：重要的四個評估維度

**OWASP LLM08:2025（過度代理）**將代理行為測試不足識別為代理系統中意外副作用的根本原因。

**openai/evals（GitHub 18,604顆星，MIT相容）**是最大的開源LLM評估登錄表。它涵蓋模型級評估，不涵蓋代理級軌跡評分。

LLM-as-judge（由MT-Bench 2023推廣）當評判模型和受測模型共享相同基礎權重時，會引入高達20%的正向偏差。使用不同模型系列作為評判以獲得可信的評估結果。

工具呼叫正確性和副作用稽核

記錄代理在評估執行中進行的每次工具呼叫：工具名稱、參數、回傳值和下游操作。與黃金軌跡進行比較。

每任務成本和延遲預算

正確完成任務但需要47次LLM呼叫來完成設計良好的代理用8次完成的工作的代理，尚未準備好投入生產。測量每個完成任務消耗的語言標記和實際時間。

安全評估：憑證處理和注入抵抗

安全評估值得擁有自己的測試套件。驗證代理不在工具呼叫參數中記錄憑證、不遵循嵌入對抗性工具輸出中的指令，以及不在其指定任務範圍之外採取不可逆操作。

AI智能代理基準測試套件

openai/evals：模型級基線（18,604顆星）

openai/evals（GitHub 18,604顆星，MIT相容）是LLM評估的最大開放基準登錄表。可用作模型品質基線，但不測試多步驟工具使用或代理任務完成。

trycua/cua：電腦使用代理基準（17,633顆星）

trycua/cua（GitHub 17,633顆星，MIT）為評估控制macOS、Linux和Windows桌面的電腦使用代理提供沙箱環境。CUA基準是開源評估領域最具挑戰性的基準之一。

microsoft/promptflow：LLM應用品質評估節點（11,142顆星）

microsoft/promptflow（GitHub 11,142顆星，MIT）包含用於評分LLM應用輸出的內建評估節點：基礎性、相關性和流暢性。

IBM/AssetOpsBench：460+行業場景MCP評估（1,704顆星）

IBM/AssetOpsBench（GitHub 1,704顆星，Apache-2.0）為在Model Context Protocol上執行的代理提供460多個行業場景評估案例。

評估方法

精確匹配和程式化評分器

精確匹配評分器將代理輸出與預定義的期望值進行比較。確定性、快速、無評判模型偏差。

LLM-as-judge：偏差風險和緩解

LLM-as-judge使用語言模型根據評分標準對代理輸出進行評分。當評判和受測模型共享相同基礎權重時，偏差風險已量化：高達20%的正向偏差使評估分數膨脹。

緩解措施：使用來自不同提供商或訓練譜系的評判模型、提供具有具體通過/失敗標準的明確評分標準、根據少量人工標注範例校準評判分數。

軌跡評分和步驟級正確性

軌跡評分評估代理完成任務所採取的完整操作序列。步驟級指標：工具選擇準確性、參數正確性、軌跡效率、錯誤恢復、終止準確性。

對抗性輸入測試框架

對抗性評估測試代理在旨在觸發不安全或不正確行為的輸入下的行為：透過工具輸出進行的提示注入、格式錯誤的工具回應、範圍邊界探測、憑證暴露探測。

建構代理評估管道

代理任務的評估資料集設計

良好的代理評估資料集包含：任務輸入、預期工具呼叫序列、成功標準和中繼資料。從涵蓋主要用例的50-100個任務開始。

追蹤重放和回歸測試

追蹤重放對代理執行評估資料集，擷取完整的執行追蹤，並與黃金追蹤進行比較。回歸測試標記在先前版本中通過但在目前版本中失敗的任務。

CI整合：在評估回歸時封鎖部署

將代理評估整合到CI管道中，以在品質下降時封鎖部署。如果任務完成率絕對值下降超過5%，或任何安全評估測試案例從通過回歸為失敗，則封鎖部署。

評估工具比較

維度	openai/evals	trycua/cua	promptflow eval	IBM/AssetOpsBench
評估範圍	單輪LLM	電腦使用桌面	LLM應用品質	多角色MCP代理
評分方法	精確匹配、LLM評判	環境執行	LLM評判節點	程式化+LLM評判
代理軌跡支援	否	是（完整桌面工作階段）	部分（流程級別）	是（4角色工作流程）
安全測試	否	否	否	部分
CI整合	透過CLI	透過SDK	PromptFlow原生	手動
授權	MIT相容	MIT	MIT	Apache-2.0
GitHub星數	18,604	17,633	11,142	1,704

常見問題

什麼是AI智能代理評估？

AI智能代理評估衡量代理是否正確完成多步驟任務、使用正確參數呼叫工具、維持在成本和延遲預算內，以及避免憑證洩露或提示注入等不安全行為。與單輪LLM評估不同，代理評估對完整的執行軌跡進行評分。

用什麼基準測試來評估AI智能代理？

常見框架包括openai/evals（GitHub 18,604顆星，模型級別）、trycua/cua（GitHub 17,633顆星，MIT，電腦使用桌面任務）、microsoft/promptflow評估節點（GitHub 11,142顆星，MIT，LLM應用品質）和IBM/AssetOpsBench（GitHub 1,704顆星，Apache-2.0，460+行業MCP場景）。

什麼是LLM-as-judge評估，有什麼風險？

LLM-as-judge使用單獨的語言模型根據評分標準對代理輸出進行評分。關鍵風險：當評判和受測模型共享相同基礎權重時，高達20%的正向偏差使分數膨脹。使用不同模型系列作為評判以獲得可信結果。

pass@k如何用於代理評估？

Pass@k測量k次獨立代理執行中至少一次正確完成任務的機率。低pass@1配合高pass@3表明非確定性執行，值得在生產部署前調查。

如何評估代理安全性和憑證處理？

安全評估測試代理是否在工具呼叫參數中洩露憑證、回應工具輸出中的對抗性提示注入，或在其範圍之外造成不可逆副作用。OWASP LLM08:2025（過度代理）將此失敗模式記錄為LLM前10大漏洞。

如何將代理評估整合到CI/CD中？

記錄包含任務輸入、預期工具呼叫序列和最終輸出的黃金評估資料集。在每次提交時，對更新的代理重放資料集並將軌跡分數與先前基線進行比較。如果任務完成率絕對值下降超過5%或任何安全測試回歸，則封鎖部署。

OpenLegion如何支援代理評估？

OpenLegion的代理網格發出可對評估框架重放的結構化工具呼叫追蹤。憑證保險庫確保評估執行使用隔離的憑證。由心跳驅動的評估代理可以按排程執行回歸套件。

在安全的網格中評估您的代理

可靠的代理需要測試完整執行軌跡的評估基礎設施。累積錯誤問題是真實存在的：步驟可靠性率90%意味著五步代理在41%的執行中失敗。

開始在OpenLegion上建構經過評估的代理