AI 에이전트 관측 가능성: 프로덕션에서 추적해야 할 것

AI 에이전트 관측 가능성은 자율 에이전트가 실행하는 모든 도구 호출, 모든 LLM 호출, 그리고 지출하는 모든 비용을 기록하는 분야입니다. 기존 APM이 다루지 않았던 비결정적 의사결정, 누적 비용, 프롬프트 인젝션 시도를 포착합니다. 이것이 없다면 프로덕션 플릿은 믿음에 기대어 운영되며, 한 에이전트가 막혀 있는 동안 누군가 청구서를 확인하기 전까지 수 시간의 컴퓨팅을 태울 수 있습니다.

AI 에이전트 관측 가능성이란 무엇입니까?

AI 에이전트 관측 가능성은 자율 AI 에이전트로부터 구조화된 텔레메트리를 포착하는 분야입니다 — 실행 트레이스, 토큰 지출, 프롬프트 버전, 도구 호출 감사, 보안 이벤트 — 그래서 엔지니어가 프로덕션에서 실행되는 에이전트를 디버그하고, 거버넌스하며, 최적화할 수 있게 합니다.

핵심 요약

에이전트 관측 가능성은 앱 관측 가능성보다 어렵습니다. 에이전트의 제어 흐름이 손으로 쓴 코드가 아니라 런타임에 LLM에 의해 결정되기 때문입니다.
네 가지 신호가 중요합니다: 엔드 투 엔드 트레이스, 에이전트별 비용, 프롬프트 및 모델 버전 관리, 보안 이벤트 캡처(프롬프트 인젝션 시도, ACL 거부, 예산 컷오프).
대부분의 에이전트 프레임워크는 내장 관측 가능성 없이 출시됩니다 — 팀은 LangSmith, Langfuse, Arize Phoenix를 덧붙이고 첫 프로덕션 인시던트 후에야 격차를 발견합니다.
OpenLegion의 메시 대시보드는 기본으로 모든 도구 호출, LLM 요청, 비용 라인, 보안 이벤트를 기록합니다 — 계측 코드도, 서드파티 에이전트 통합도 필요 없습니다.
비용 관측 가능성은 모르고 지출했던 예산입니다: 에이전트별 한도가 없으면 한 에이전트가 하룻밤 사이에 API 호출로 수백 달러를 태울 수 있습니다.

AI 에이전트 관측 가능성이 다른 이유

Datadog, Honeycomb, New Relic — 모든 기존 APM 도구는 두 가지 가정 위에 구축되었습니다: 코드 경로가 결정론적이고, 요청 핸들러가 사람이 작성한 것이라는 가정. 자율 에이전트는 네 가지 구체적인 방식으로 두 가정을 모두 깨뜨립니다:

제어 흐름이 생성됩니다, 코딩되지 않습니다. 에이전트는 런타임에 도구를 호출할지, 재시도할지, 다른 에이전트에 인계할지, 포기할지 결정합니다.
비용은 기본적으로 무제한입니다. 각 LLM 호출은 더 많은 호출로 이어질 수 있습니다. 에이전트별 예산 한도가 없으면 폭주 루프는 폭주 청구서가 됩니다.
오류 표면이 이중입니다: 표준 실패(타임아웃, 5xx)에 더해 LLM 특유의 실패(환각된 도구 이름, 잘못된 JSON, 거부, 프롬프트 인젝션 성공).
감사 가능성은 컴플라이언스 요건입니다, 있으면 좋은 것이 아닙니다. 규제 산업의 팀은 에이전트가 무엇을, 언제, 어떤 프롬프트로, 누구의 데이터에 대해 했는지 증명해야 합니다.

실무적 결과는 다음과 같습니다: 표준 APM 대시보드는 에이전트 실행이 12초 걸렸다고 알려줍니다. 그러나 에이전트가 그 시간을 들이기 위해 시도 #3에서 데이터베이스 컬럼 이름을 환각해서 재시도 루프에 들어가 47번의 LLM 호출을 했다고는 알려주지 않습니다.

실제로 필요한 네 가지 신호

1. 엔드 투 엔드 실행 트레이스

각 에이전트 실행을 트리로 모델링: 부모 작업 → 도구 호출 → LLM 왕복 → 자식 에이전트 핸드오프. 스팬 수준의 지연 시간, 상태, 입력 및 출력. OpenTelemetry의 GenAI 시맨틱 컨벤션이 여기로 수렴하고 있습니다. 이를 구현한 도구들 — Langfuse, Arize Phoenix, Helicone — 은 상호 운용됩니다.

2. 에이전트별, 작업별, 제공자별 비용

제공자별 토큰 수와 달러 변환, 에이전트별, 프로젝트별, 팀별 롤업. 비용은 실행 후에 차트로 보는 것이 아니라 실행을 하드 컷해야 하는 예산 신호입니다.

3. 프롬프트 및 모델 버전 관리

에이전트가 회귀했을 때, 그것이 프롬프트 변경 때문이었는지, 모델 업그레이드 때문이었는지, 업스트림 데이터 드리프트 때문이었는지 알 수 있습니까? 실행에 고정된 버전 관리된 프롬프트가 없다면 알 수 없습니다. 프롬프트 레지스트리(LangSmith Hub, Langfuse Prompts, Promptlayer)가 모두 이를 해결하지만, 런타임이 각 실행이 실제로 어떤 버전을 사용했는지 기록해야 합니다.

4. 보안 이벤트

프롬프트 인젝션 시도, ACL 거부, SSRF 차단, 예산 컷오프, 유니코드 새니타이즈 적중. 이는 컴플라이언스 검토자가 묻는 이벤트이며 — 에이전트 플릿에 대한 진행 중인 공격을 시그널링하는 이벤트입니다.

OpenLegion이 기본으로 추적하는 것

신호	포착되는 것	어디서 볼 수 있는가
트레이스	모든 도구 호출, LLM 요청, 타이밍과 함께 에이전트 핸드오프	메시 대시보드 → Agent Runs
비용	입력/출력 토큰, 에이전트별 제공자별 달러 비용	대시보드 → 비용 패널
프롬프트	실행별 시스템 프롬프트 해시, 버전, 모델, 파라미터	실행별 상세 뷰
보안	ACL 거부, 예산 컷오프, SSRF 차단, 새니타이저 적중	대시보드 → 보안 로그
건강성	컨테이너 리소스 사용, 메시 지연 시간, 브라우저 풀 상태	대시보드 → 플릿 패널

이 대시보드는 오픈소스 런타임의 일부입니다 — 구독해야 하는 매니지드 서비스가 아닙니다. 셀프 호스팅 배포는 모든 텔레메트리를 본인 인프라에 유지합니다.

오픈소스 vs 매니지드 관측 가능성 스택

다른 에이전트 프레임워크를 운영 중이라면, 선도적인 부가 도구는 LangSmith(LangChain 생태계, 매니지드), Langfuse(오픈소스, 셀프 호스팅 가능), Arize Phoenix(오픈소스, 평가 중심), Helicone(프록시 기반, 단순 통합)입니다. 각각 에이전트에 계측 코드를 요구합니다 — LLM 클라이언트 래핑, 콜백 핸들러 추가, 트레이스 익스포터 구성. 통합 부담은 플릿 크기에 따라 증가합니다.

OpenLegion의 메시는 설계상 모든 에이전트 동작의 호출 경로에 위치합니다 — 자격 증명 볼트, ACL 게이트, 비용 트래커, 트레이스 레코더가 모두 신뢰 영역에 함께 배치되어 있습니다. 계측 단계가 없습니다. 트레이드오프: 단순한 관측 가능성 레이어가 아니라 OpenLegion 런타임을 채택해야 합니다.

전체 환경은 AI 에이전트 프레임워크 비교를 참조하거나, 관측 가능성에 한정된 1대1 비교는 vs LangGraph 페이지를 참조하십시오.

OpenLegion의 견해

에이전트 관측 가능성은 새로운 APM입니다 — 그리고 AI 생태계는 APM이 10년에 걸쳐 수정한 모든 실수를 반복하고 있습니다. 텔레메트리는 벤더별 SDK에 걸쳐 파편화됩니다. 가격은 이벤트 볼륨에 따라 확장되어 가장 바쁜 플릿이 스스로를 관찰하기 위해 가장 많이 지불합니다. 알림과 보존 같은 "고급" 기능은 엔터프라이즈 티어 뒤에 있습니다. OpenLegion은 반대 입장을 취합니다: 대시보드, 트레이스, 비용 원장, 보안 이벤트 로그는 업셀이 아닌 AI 에이전트 플랫폼과 함께 제공됩니다. 모든 실행이 기본으로 전체 트레이스를 기록하며, 데이터를 셀프 호스팅하고, 보존을 소유하며, Datadog이나 Honeycomb으로 전달하고 싶다면 OpenTelemetry로 익스포트할 수 있습니다.

프로덕션 에이전트에는 프로덕션 관측 가능성이 필요합니다 — 덧붙인 것이 아니라 내장된 것.

지금 시작하기 문서 보기

자주 묻는 질문

AI 에이전트 관측 가능성이란 무엇입니까?

AI 에이전트 관측 가능성은 자율 에이전트의 런타임 동작 — 도구 호출, LLM 호출, 프롬프트 버전, 비용, 보안 이벤트 — 을 구조화된 형태로 기록하는 것으로, 엔지니어가 실패를 디버그하고, 비용을 최적화하며, 의사결정을 감사할 수 있게 합니다. 에이전트의 제어 흐름이 손으로 쓴 코드가 아닌 LLM에 의해 결정되므로 기존 APM과는 다릅니다.

AI 에이전트 관측 가능성과 LLM 관측 가능성은 어떻게 다릅니까?

LLM 관측 가능성은 개별 모델 호출 — 프롬프트, 응답, 지연 시간, 토큰 비용 — 을 추적합니다. AI 에이전트 관측 가능성은 에이전트가 작업을 완료하기 위해 통과하는 전체 실행 그래프를 추적하며, 이는 일반적으로 많은 LLM 호출에 도구 호출, 다른 에이전트로의 핸드오프, 재시도, 상태 변경을 포함합니다. LLM 관측 가능성은 에이전트 관측 가능성의 부분집합입니다.

이미 Datadog을 사용 중이라면 별도의 관측 가능성 도구가 필요합니까?

Datadog 및 유사한 APM 도구는 지연 시간, 오류, 리소스 사용을 잘 처리하지만, LLM 토큰 비용, 프롬프트 버전 관리, 에이전트 트레이스 시맨틱을 네이티브로 이해하지는 못합니다. 대부분의 팀은 에이전트 네이티브 관측 가능성 도구(Langfuse, Arize Phoenix, LangSmith)를 기존 APM과 함께 사용하거나, 텔레메트리를 내장한 OpenLegion 같은 런타임을 채택해 이미 운영 중인 APM으로 OpenTelemetry 익스포트를 합니다.

AI 에이전트 비용 관측 가능성을 위해 무엇을 추적해야 합니까?

각 실행별, 에이전트별, 제공자별 토큰 수(입력 및 출력), 현재 제공자 가격에 대해 계산된 달러 비용, 에이전트별 일별 및 월별 롤업, 에이전트가 할당량을 초과해 중단되었을 때의 예산 컷오프 이벤트를 추적하십시오. 에이전트별 예산 한도 없이는 훌륭한 관측 가능성조차 청구서가 도착한 후에야 폭주 사실을 알려줄 뿐입니다.

AI 에이전트 관측 가능성은 어떤 보안 이벤트를 포착해야 합니까?

최소한: 프롬프트 인젝션 감지, ACL 거부(에이전트가 권한 경계 밖의 작업을 시도), SSRF 차단, 유니코드 및 경로 탐색 새니타이즈 적중, 예산 컷오프, 자격 증명 볼트 접근 로그. 이는 컴플라이언스 검토자가 묻는 이벤트이며, 에이전트 플릿에 대한 활성 공격을 시그널링하는 이벤트입니다.

OpenLegion의 관측 가능성은 LangSmith와 어떻게 비교됩니까?

LangSmith는 LangChain 생태계를 위한 매니지드 관측 가능성 서비스입니다 — 강력한 트레이싱, 평가, 프롬프트 관리 기능을 제공합니다. OpenLegion의 대시보드는 런타임 자체와 함께 제공되며, 기본적으로 셀프 호스팅되며, 에이전트 코드에 계측을 요구하지 않고 동일한 신호(트레이스, 비용, 프롬프트, 보안 이벤트)를 기록합니다. LangSmith는 이를 채택하는 모든 프레임워크에 걸쳐 통합됩니다. OpenLegion 관측 가능성은 OpenLegion 런타임 내부에서 자동으로 작동합니다.