AIエージェント可観測性:本番運用で何を追跡するか
AIエージェント可観測性とは、自律エージェントのあらゆるツール呼び出し、あらゆるLLM呼び出し、消費した1ドル単位のコストを記録する規律です — 従来のAPMが扱う必要のなかった非決定論的な判断、累積コスト、プロンプトインジェクション試行を捕捉します。これがなければ、本番フリートは信仰の上で動作し、立ち往生した1つのエージェントが請求書に気づかれる前に何時間も計算リソースを焼き尽くす可能性があります。
AIエージェント可観測性とは?
AIエージェント可観測性とは、自律AIエージェントから構造化されたテレメトリ — 実行トレース、トークン支出、プロンプトバージョン、ツール呼び出し監査、セキュリティイベント — を捕捉する規律であり、エンジニアが本番環境で動作するエージェントをデバッグ、ガバナンス、最適化できるようにします。
TL;DR
- エージェント可観測性はアプリ可観測性より難しい。なぜならエージェントの制御フローは、手書きコードではなくランタイム時のLLMによって決定されるからです。
- 重要な4つのシグナル:エンドツーエンドのトレース、エージェント単位のコスト、プロンプトとモデルのバージョン管理、セキュリティイベントの捕捉(プロンプトインジェクション試行、ACL拒否、予算カットオフ)。
- ほとんどのエージェントフレームワークは組み込みの可観測性なしで出荷されます — チームはLangSmith、Langfuse、Arize Phoenixを後付けし、最初の本番インシデント後にギャップに気づきます。
- OpenLegionのメッシュダッシュボードは、すべてのツール呼び出し、LLMリクエスト、コスト行、セキュリティイベントをデフォルトで記録します — 計装コード不要、サードパーティエージェント統合不要。
- コスト可観測性は、知らずに使っていた予算:エージェント単位の上限なしでは、立ち往生した1つのエージェントが一晩でAPI呼び出しに数百ドルを焼き尽くす可能性があります。
なぜAIエージェント可観測性は異なるのか
Datadog、Honeycomb、New Relic — 従来のAPMツールはすべて、2つの前提に基づいて構築されています:コードパスが決定論的であること、リクエストハンドラーが人間が書いたものであること。自律エージェントはこの両方を、特定の4つの方法で破ります:
- 制御フローはコード化ではなく生成される。エージェントは、ツールを呼び出すか、リトライするか、別のエージェントにハンドオフするか、諦めるかをランタイム時に決定します。
- コストはデフォルトで上限なし。各LLM呼び出しはさらなる呼び出しに連鎖し得ます。エージェント単位の予算上限なしでは、暴走ループは暴走請求書です。
- エラー面は二重:標準的な障害(タイムアウト、5xx)に加え、LLM固有の障害(幻覚されたツール名、不正なJSON、拒否、プロンプトインジェクションの成功)。
- 監査性は「あれば良い」ではなくコンプライアンス要件。規制対象のチームは、エージェントが何を、いつ、どのプロンプトで、誰のデータに対して行ったかを証明する必要があります。
実用上の帰結:標準的なAPMダッシュボードはエージェント実行が12秒かかったと教えてくれます。しかし、3回目の試行でデータベース列名を幻覚しリトライループに入ったため、47回のLLM呼び出しを行ったとは教えてくれません。
実際に必要な4つのシグナル
1. エンドツーエンドの実行トレース
すべてのエージェント実行を木構造としてモデル化:親タスク → ツール呼び出し → LLMラウンドトリップ → 子エージェントへのハンドオフ。スパンレベルのレイテンシ、ステータス、入力と出力。OpenTelemetryのGenAIセマンティック規約がここで収束しつつあります。それを実装するツール — Langfuse、Arize Phoenix、Helicone — は相互運用します。
2. エージェント単位、タスク単位、プロバイダー単位のコスト
プロバイダーごとのトークン数、ドル換算、エージェント・プロジェクト・チーム単位の集計。コストは、事後にチャートを書くだけでなく、実行をハードカットすべき予算シグナルです。
3. プロンプトとモデルのバージョン管理
エージェントが退行したとき、それはプロンプト変更、モデルアップグレード、または上流データのドリフトのせいでしたか?実行に紐付けられたバージョン管理されたプロンプトがなければ判断できません。プロンプトレジストリ(LangSmith Hub、Langfuse Prompts、Promptlayer)はすべてこれを解決します。各実行が実際にどのバージョンを使用したかをランタイムが記録する必要があります。
4. セキュリティイベント
プロンプトインジェクション試行、ACL拒否、SSRFブロック、予算カットオフ、Unicodeサニタイゼーション該当。これらはコンプライアンスレビュアーが尋ねるイベントであり、エージェントフリートに対する進行中の攻撃を示すイベントです。
OpenLegionがデフォルトで追跡するもの
| シグナル | 捕捉される内容 | 確認場所 |
|---|---|---|
| トレース | すべてのツール呼び出し、LLMリクエスト、エージェントハンドオフのタイミング付き | メッシュダッシュボード → エージェント実行 |
| コスト | プロバイダーごと、エージェントごとの入出力トークン、ドルコスト | ダッシュボード → コストパネル |
| プロンプト | 実行ごとのシステムプロンプトハッシュ、バージョン、モデル、パラメータ | 実行ごとの詳細ビュー |
| セキュリティ | ACL拒否、予算カットオフ、SSRFブロック、サニタイザー該当 | ダッシュボード → セキュリティログ |
| ヘルス | コンテナリソース使用、メッシュレイテンシ、ブラウザプール状態 | ダッシュボード → フリートパネル |
このダッシュボードはオープンソースランタイムの一部であり、サブスクライブする必要があるマネージドサービスではありません。セルフホスト展開では、すべてのテレメトリが自社インフラに留まります。
オープンソース vs マネージド可観測性スタック
別のエージェントフレームワークを動かしている場合、主要な後付けツールはLangSmith(LangChainエコシステム、マネージド)、Langfuse(オープンソース、セルフホスト可)、Arize Phoenix(オープンソース、評価重視)、Helicone(プロキシベース、シンプルな統合)です。それぞれエージェント内に計装コードを必要とします — LLMクライアントのラップ、コールバックハンドラの追加、トレースエクスポーターの設定。統合の負担はフリートサイズに比例します。
OpenLegionのメッシュは、設計上、すべてのエージェント操作のコールパス上に位置します — クレデンシャルボルト、ACLゲート、コストトラッカー、トレースレコーダーがすべて信頼ゾーンに同居しています。計装ステップはありません。トレードオフ:可観測性層だけでなく、OpenLegionランタイムを採用することになります。
全体像はAIエージェントフレームワーク比較を、可観測性に特化した一対一比較はvs LangGraphページをご覧ください。
OpenLegionの見方
エージェント可観測性は新しいAPMです — そしてAIエコシステムはAPMが10年かけて修正したあらゆる失敗を繰り返しています。テレメトリはベンダー固有のSDKにわたって断片化します。価格はイベント量に応じて拡大するため、最も忙しいフリートが自身を監視するために最も多く支払います。アラートや保持などの「高度な」機能はエンタープライズティアの裏側にあります。OpenLegionは反対の立場を取ります:ダッシュボード、トレース、コスト台帳、セキュリティイベントログは、アップセルではなくAIエージェントプラットフォームとともに出荷されます。すべての実行がデフォルトで完全なトレースを記録し、データをセルフホストし、保持を自社で所有し、DatadogやHoneycombに転送したければOpenTelemetryでエクスポートできます。
本番のエージェントには本番の可観測性が必要 — 後付けではなく組み込みで。
よくある質問
AIエージェント可観測性とは?
AIエージェント可観測性は、自律エージェントのランタイム挙動 — ツール呼び出し、LLM呼び出し、プロンプトバージョン、コスト、セキュリティイベント — を構造化記録することで、エンジニアが障害をデバッグし、コストを最適化し、判断を監査できるようにするものです。従来のAPMとは異なります。なぜならエージェントの制御フローは、手書きコードではなくLLMによって決定されるからです。
AIエージェント可観測性はLLM可観測性とどう違うのか?
LLM可観測性は個々のモデル呼び出し — プロンプト、応答、レイテンシ、トークンコスト — を追跡します。AIエージェント可観測性は、エージェントがタスクを完了するために通過する完全な実行グラフを追跡します。これには通常、多数のLLM呼び出しに加え、ツール呼び出し、他のエージェントへのハンドオフ、リトライ、状態の変更が含まれます。LLM可観測性はエージェント可観測性のサブセットです。
既にDatadogを使っているなら別の可観測性ツールは必要ですか?
Datadogや類似のAPMツールはレイテンシ、エラー、リソース使用を上手く扱いますが、LLMトークンコスト、プロンプトのバージョン管理、エージェントトレースのセマンティクスをネイティブに理解しません。ほとんどのチームは既存のAPMにエージェントネイティブな可観測性ツール(Langfuse、Arize Phoenix、LangSmith)を組み合わせるか、テレメトリを組み込み済みで運用中の任意のAPMにOpenTelemetryでエクスポート可能なOpenLegionのようなランタイムを採用します。
AIエージェントのコスト可観測性で何を追跡すべきですか?
プロバイダーごと、エージェントごと、実行ごとのトークン数(入出力)、現在のプロバイダー価格に対するドルコスト計算、エージェント単位の日次・月次集計、エージェントが割り当てを超過して停止された予算カットオフイベントを追跡します。エージェント単位の予算上限がなければ、優れた可観測性があっても請求書が届いた後に暴走を教えてくれるだけです。
AIエージェント可観測性で捕捉すべきセキュリティイベントは?
最低限:プロンプトインジェクション検出、ACL拒否(エージェントがパーミッション境界外の操作を試行)、SSRFブロック、Unicodeとパストラバーサルのサニタイゼーション該当、予算カットオフ、クレデンシャルボルトアクセスログ。これらはコンプライアンスレビュアーが尋ねるイベントであり、エージェントフリートに対する進行中の攻撃を示すイベントです。
OpenLegionの可観測性はLangSmithとどう比較できますか?
LangSmithはLangChainエコシステム向けのマネージド可観測性サービス — 強力なトレーシング、評価、プロンプト管理機能を持ちます。OpenLegionのダッシュボードはランタイム自体に同梱され、デフォルトでセルフホストされ、エージェントコード内の計装を要求せずに同じシグナル(トレース、コスト、プロンプト、セキュリティイベント)を記録します。LangSmithはそれを採用する任意のフレームワークで統合します。OpenLegionの可観測性はOpenLegionランタイム内で自動的に動作します。