AIエージェント評価:ベンチマーク、メトリクス、テスト
AIエージェント評価とは、エージェントがタスクを正確に完了し、ツールを安全に呼び出し、単一のLLM呼び出しだけでなく多段階の実行トレース全体でコストとレイテンシの予算内に収まるかを体系的に測定する実践です。言語モデル向けに設計されたシングルターンベンチマークは、エージェントシステムで生じる累積的な障害モードを捉えられません。ステップごとの成功率90%は、5回の連続したツール呼び出しで約59%まで低下します。
AIエージェント評価とは、タスク完了率、ツール呼び出しの正確性、トラジェクトリ長の効率性、セキュリティ制御の遵守、タスクあたりのコストなどの次元で自律AIシステムを評価するソフトウェアテストの専門分野です。ベンチマークスイート、記録済みトレースのリプレイ、LLM-as-judgeグレーダーを使用します。
シングルターンLLMベンチマークがエージェントで失敗する理由
多段階ツールチェーンにおける累積エラー
MMLUのようなシングルターンベンチマークは、孤立した質問に対するワンショット精度を測定します。エージェントは異なる動作をします。各ツール呼び出しは前の結果に依存し、エラーが伝播します。ステップごとの信頼性が90%の場合、5ステップのツールチェーンはエラーなしで完了するのは59%のみです(0.9⁵ ≈ 0.59)。80%では33%に低下します。
この累積的なダイナミクスは、ステップレベルのメトリクスでは許容範囲に見えるエージェントが、エンドツーエンドの本番環境では信頼性が低い可能性があることを意味します。唯一意味のある測定はトラジェクトリレベルのタスク完了です。
Task-Pass@kの適応
Pass@kはHumanEval(2021年)でコード生成を測定するために導入されました。エージェントでは、同じ原則がトラジェクトリレベルに適用されます。pass@1が低くpass@3が高い場合は特定の失敗シグナルです。エージェントはタスクを解決できますが、確実にはできません。
MMLUとHumanEvalが見逃すもの
MMLUは事実の記憶をテストします。HumanEvalは関数レベルのコード生成を単独でテストします。どちらも本番エージェントが実際に行うことをテストしません。実際のツール出力を使った多段階推論、予期しないツール結果からのエラー回復、長いトラジェクトリにわたるコスト管理、敵対的入力下での動作です。
OpenLegionの見解:重要な4つの評価次元
**OWASP LLM08:2025(過剰なエージェンシー)**は、エージェント動作の不十分なテストを、エージェントシステムにおける意図しない副作用の根本原因として特定しています。
**openai/evals(GitHub 18,604スター、MIT準拠)**は最大のオープンソースLLM評価レジストリです。モデルレベルの評価をカバーしており、エージェントレベルのトラジェクトリスコアリングはカバーしていません。
LLM-as-judge(MT-Bench 2023で普及)は、ジャッジモデルと被験モデルが同じベースウェイトを共有する場合、最大20%のポジティビティバイアスを導入します。信頼できる評価結果を得るには、異なるモデルファミリーをジャッジとして使用してください。
ツール呼び出しの正確性と副作用の監査
評価実行中にエージェントが行うすべてのツール呼び出しを記録します。ツール名、引数、戻り値、後続のアクション。ゴールデントラジェクトリと比較します。
タスクあたりのコストとレイテンシ予算
タスクを正しく完了するが、よく設計されたエージェントが8回で行うことに47回のLLM呼び出しを要するエージェントは本番対応できていません。完了したタスクあたりのトークン消費と実時間を測定してください。
セキュリティ評価:認証情報の取り扱いとインジェクション耐性
セキュリティ評価には専用のテストスイートが必要です。エージェントがツール呼び出し引数に認証情報を記録しないこと、敵対的なツール出力に埋め込まれた指示に従わないこと、指定されたタスク範囲外で取り消し不能なアクションを取らないことを検証します。
AIエージェント向けベンチマークスイート
openai/evals:モデルレベルベースライン(18,604スター)
openai/evals(GitHub 18,604スター、MIT準拠)はLLM評価のための最大のオープンベンチマークレジストリです。モデルの品質ベースラインとして有用ですが、多段階ツール使用やエージェントのタスク完了はテストしません。
trycua/cua:コンピュータ使用エージェントベンチマーク(17,633スター)
trycua/cua(GitHub 17,633スター、MIT)は、macOS、Linux、Windowsデスクトップを制御するコンピュータ使用エージェントを評価するためのサンドボックス環境を提供します。CUAベンチマークはオープンソース評価の中で最も困難なものの一つです。
microsoft/promptflow:LLMアプリ品質評価ノード(11,142スター)
microsoft/promptflow(GitHub 11,142スター、MIT)は、LLMアプリケーション出力をスコアリングするための組み込み評価ノードを含みます。根拠性、関連性、流暢性を評価します。
IBM/AssetOpsBench:460以上の業界シナリオMCP評価(1,704スター)
IBM/AssetOpsBench(GitHub 1,704スター、Apache-2.0)は、Model Context Protocol上で動作するエージェントのための460以上の業界シナリオ評価ケースを提供します。
評価方法
完全一致とプログラマティックグレーダー
完全一致グレーダーは、エージェント出力を事前定義された期待値と比較します。決定論的で高速、ジャッジモデルのバイアスがありません。
LLM-as-judge:バイアスリスクと軽減策
LLM-as-judgeは言語モデルを使用してエージェント出力をルーブリックに対してスコアリングします。バイアスリスクは定量化されています。ジャッジと被験モデルが同じベースウェイトを共有する場合、最大20%のポジティビティバイアスがスコアを膨らませます。
軽減策:異なるプロバイダーまたはトレーニング系統のジャッジモデルを使用する、具体的な合否基準を持つ明示的なスコアリングルーブリックを提供する、人間がラベル付けした少数のサンプルに対してジャッジスコアを校正する。
トラジェクトリスコアリングとステップレベルの正確性
トラジェクトリスコアリングは、エージェントがタスクを完了するために取った完全なアクションシーケンスを評価します。ステップレベルのメトリクス:ツール選択の精度、引数の正確性、トラジェクトリ効率、エラー回復、終了精度。
敵対的入力ハーネス
敵対的評価は、安全でない、または不正確な動作を引き起こすように設計された入力下でのエージェントの動作をテストします。ツール出力を通じたプロンプトインジェクション、不正なツール応答、スコープ境界のプローブ、認証情報露出のプローブ。
エージェント評価パイプラインの構築
エージェントタスク向け評価データセット設計
優れたエージェント評価データセットには以下が含まれます。タスク入力、期待されるツール呼び出しシーケンス、成功基準、メタデータ。主なユースケースをカバーする50〜100タスクから始めてください。
トレースリプレイと回帰テスト
トレースリプレイは評価データセットをエージェントに対して実行し、完全な実行トレースをキャプチャしてゴールデントレースと比較します。回帰テストは、以前のバージョンで合格したタスクが現在のバージョンで失敗した場合にフラグを立てます。
CI統合:評価回帰でデプロイをブロック
品質が低下した場合にデプロイをブロックするために、エージェント評価をCIパイプラインに統合します。タスク完了率が絶対値で5%以上低下するか、セキュリティ評価のテストケースが合格から失敗に回帰した場合はデプロイをブロックします。
評価ツールの比較
| 次元 | openai/evals | trycua/cua | promptflow eval | IBM/AssetOpsBench |
|---|---|---|---|---|
| 評価スコープ | シングルターンLLM | コンピュータ使用デスクトップ | LLMアプリ品質 | マルチロールMCPエージェント |
| 採点方法 | 完全一致、LLMジャッジ | 環境実行 | LLMジャッジノード | プログラマティック+LLMジャッジ |
| エージェントトラジェクトリサポート | なし | あり(完全なデスクトップセッション) | 部分的(フローレベル) | あり(4ロールワークフロー) |
| セキュリティテスト | なし | なし | なし | 部分的 |
| CI統合 | CLIを使用 | SDKを使用 | PromptFlowにネイティブ | 手動 |
| ライセンス | MIT準拠 | MIT | MIT | Apache-2.0 |
| GitHubスター | 18,604 | 17,633 | 11,142 | 1,704 |
よくある質問
AIエージェント評価とは何ですか?
AIエージェント評価は、エージェントが多段階タスクを正確に完了し、正しい引数でツールを呼び出し、コストとレイテンシの予算内に収まり、認証情報の流出やプロンプトインジェクションなどの安全でない動作を避けるかを測定します。
AIエージェントの評価にはどのようなベンチマークが使われますか?
一般的なフレームワークには、openai/evals(GitHub 18,604スター、モデルレベル)、trycua/cua(GitHub 17,633スター、MIT、コンピュータ使用デスクトップタスク)、microsoft/promptflow evalノード(GitHub 11,142スター、MIT、LLMアプリ品質)、IBM/AssetOpsBench(GitHub 1,704スター、Apache-2.0、460以上の業界MCPシナリオ)があります。
LLM-as-judge評価とは何ですか?そのリスクは何ですか?
LLM-as-judgeは、別の言語モデルを使用してエージェント出力をルーブリックに対してスコアリングします。主なリスク:ジャッジと被験モデルが同じベースウェイトを共有する場合、最大20%のポジティビティバイアスがスコアを膨らませます。信頼できる結果を得るには異なるモデルファミリーをジャッジとして使用してください。
エージェント評価においてpass@kはどのように機能しますか?
Pass@kは、k回の独立したエージェント実行のうち少なくとも1回がタスクを正しく完了する確率を測定します。pass@1が低くpass@3が高い場合、本番デプロイ前に調査する価値のある非決定論的な実行をシグナルします。
エージェントのセキュリティと認証情報の取り扱いをどのように評価しますか?
セキュリティ評価は、エージェントがツール呼び出し引数で認証情報を漏洩するか、ツール出力での敵対的プロンプトインジェクションに応答するか、または範囲外の取り消し不能な副作用を引き起こすかをテストします。OWASP LLM08:2025(過剰なエージェンシー)はこの失敗パターンをLLMトップ10の脆弱性として記録しています。
エージェント評価をCI/CDに統合するにはどうすればよいですか?
タスク入力、期待されるツール呼び出しシーケンス、最終出力を含むゴールデン評価データセットを記録します。各コミットで、データセットを更新されたエージェントに対してリプレイし、トラジェクトリスコアを前のベースラインと比較します。タスク完了率が絶対値で5%以上低下するか、セキュリティテストが回帰した場合はデプロイをブロックします。
OpenLegionはエージェント評価をどのようにサポートしていますか?
OpenLegionのエージェントメッシュは、評価ハーネスに対してリプレイできる構造化ツール呼び出しトレースを発行します。認証情報ボールトは、評価実行が分離された認証情報を使用することを保証します。ハートビートで駆動される評価エージェントは、スケジュールに従って回帰スイートを実行できます。
安全なメッシュでエージェントを評価する
信頼性の高いエージェントには、完全な実行トラジェクトリをテストする評価インフラが必要です。累積エラーの問題は現実です。ステップごとの信頼性率が90%の場合、5ステップのエージェントは41%の実行で失敗します。