AI 에이전트 평가: 벤치마크, 메트릭, 테스트
AI 에이전트 평가는 에이전트가 단일 LLM 호출뿐만 아니라 다단계 실행 추적 전반에서 작업을 올바르게 완료하고, 도구를 안전하게 호출하며, 비용과 지연 시간 예산 내에 머무는지를 체계적으로 측정하는 실천입니다. 언어 모델을 위해 설계된 단일 턴 벤치마크는 에이전트 시스템에서 발생하는 누적 실패 모드를 놓칩니다. 단계별 성공률 90%는 5번의 순차적 도구 호출에서 약 59%로 저하됩니다.
AI 에이전트 평가는 작업 완료율, 도구 호출 정확성, 궤적 길이 효율성, 보안 제어 준수, 완료된 작업당 비용 등의 차원에서 자율 AI 시스템을 평가하는 소프트웨어 테스트 분야입니다. 벤치마크 스위트, 기록된 추적 재생, LLM-as-judge 평가자를 사용합니다.
단일 턴 LLM 벤치마크가 에이전트에 실패하는 이유
다단계 도구 체인에서의 누적 오류
MMLU 같은 단일 턴 벤치마크는 고립된 질문에 대한 원샷 정확도를 측정합니다. 에이전트는 다르게 작동합니다. 각 도구 호출은 이전 결과에 의존하고, 오류가 전파됩니다. 단계별 신뢰성이 90%인 경우, 5단계 도구 체인은 오류 없이 59%만 완료됩니다(0.9⁵ ≈ 0.59). 80%에서는 33%로 떨어집니다.
이러한 누적 동적은 단계 수준 메트릭에서 허용 가능해 보이는 에이전트가 엔드투엔드 프로덕션에서 신뢰할 수 없을 수 있음을 의미합니다. 유일하게 의미 있는 측정은 궤적 수준의 작업 완료입니다.
Task-Pass@k 적응
Pass@k는 코드 생성을 측정하기 위해 HumanEval(2021)에서 도입되었습니다. 에이전트의 경우, 동일한 원칙이 궤적 수준에 적용됩니다. pass@1이 낮고 pass@3이 높은 것은 특정 실패 신호입니다. 에이전트가 작업을 해결할 수 있지만 안정적으로는 못합니다.
MMLU와 HumanEval이 놓치는 것
MMLU는 사실적 회상을 테스트합니다. HumanEval은 고립된 함수 수준 코드 생성을 테스트합니다. 둘 다 프로덕션 에이전트가 실제로 하는 것을 테스트하지 않습니다. 실제 도구 출력을 사용한 다단계 추론, 예기치 않은 도구 결과에서의 오류 복구, 긴 궤적에 걸친 비용 관리입니다.
OpenLegion의 견해: 중요한 4가지 평가 차원
**OWASP LLM08:2025(과도한 에이전시)**는 에이전트 동작에 대한 불충분한 테스트를 에이전트 시스템에서 의도하지 않은 부작용의 근본 원인으로 식별합니다.
**openai/evals(GitHub 18,604스타, MIT 준수)**는 가장 큰 오픈소스 LLM 평가 레지스트리입니다. 모델 수준 평가를 다루며, 에이전트 수준 궤적 점수는 다루지 않습니다.
LLM-as-judge(MT-Bench 2023에서 대중화)는 판사 모델과 주제 모델이 동일한 기본 가중치를 공유할 때 최대 20%의 긍정성 편향을 도입합니다. 신뢰할 수 있는 평가 결과를 위해 다른 모델 패밀리를 판사로 사용하세요.
도구 호출 정확성 및 부작용 감사
평가 실행 중 에이전트가 수행하는 모든 도구 호출을 기록합니다. 도구 이름, 인수, 반환 값, 후속 작업. 황금 궤적과 비교합니다.
작업당 비용 및 지연 시간 예산
작업을 올바르게 완료하지만 잘 설계된 에이전트가 8번에 하는 일을 47번의 LLM 호출로 하는 에이전트는 프로덕션 준비가 되지 않았습니다. 완료된 작업당 소비된 토큰과 실제 시간을 측정하세요.
보안 평가: 자격 증명 처리 및 주입 저항성
보안 평가는 자체 테스트 스위트가 필요합니다. 에이전트가 도구 호출 인수에서 자격 증명을 기록하지 않고, 적대적 도구 출력에 포함된 지침을 따르지 않으며, 지정된 작업 범위 외에서 취소 불가능한 작업을 수행하지 않는지 확인합니다.
AI 에이전트를 위한 벤치마크 스위트
openai/evals: 모델 수준 기준선(18,604스타)
openai/evals(GitHub 18,604스타, MIT 준수)는 LLM 평가를 위한 가장 큰 오픈 벤치마크 레지스트리입니다. 모델 품질 기준선으로 유용하지만, 다단계 도구 사용이나 에이전트 작업 완료는 테스트하지 않습니다.
trycua/cua: 컴퓨터 사용 에이전트 벤치마크(17,633스타)
trycua/cua(GitHub 17,633스타, MIT)는 macOS, Linux, Windows 데스크톱을 제어하는 컴퓨터 사용 에이전트를 평가하기 위한 샌드박스 환경을 제공합니다.
microsoft/promptflow: LLM 앱 품질 평가 노드(11,142스타)
microsoft/promptflow(GitHub 11,142스타, MIT)는 LLM 애플리케이션 출력을 채점하기 위한 내장 평가 노드를 포함합니다. 근거성, 관련성, 유창성을 평가합니다.
IBM/AssetOpsBench: 460개 이상의 산업 시나리오 MCP 평가(1,704스타)
IBM/AssetOpsBench(GitHub 1,704스타, Apache-2.0)는 Model Context Protocol에서 작동하는 에이전트를 위한 460개 이상의 산업 시나리오 평가 케이스를 제공합니다.
평가 방법
정확 일치 및 프로그래매틱 평가자
정확 일치 평가자는 에이전트 출력을 사전 정의된 예상 값과 비교합니다. 결정론적이고 빠르며 판사 모델 편향이 없습니다.
LLM-as-judge: 편향 위험 및 완화
LLM-as-judge는 언어 모델을 사용하여 에이전트 출력을 루브릭에 대해 점수를 매깁니다. 편향 위험은 정량화됩니다. 판사와 주제 모델이 동일한 기본 가중치를 공유할 때 최대 20%의 긍정성 편향이 점수를 부풀립니다.
완화책: 다른 공급업체 또는 훈련 계통의 판사 모델 사용, 구체적인 합격/불합격 기준이 있는 명시적 채점 루브릭 제공, 인간이 레이블한 소규모 샘플에 대해 판사 점수 교정.
궤적 점수 및 단계 수준 정확성
궤적 점수는 에이전트가 작업을 완료하기 위해 취한 전체 작업 순서를 평가합니다. 단계 수준 메트릭: 도구 선택 정확도, 인수 정확성, 궤적 효율성, 오류 복구, 종료 정확성.
적대적 입력 하네스
적대적 평가는 안전하지 않거나 부정확한 동작을 유발하도록 설계된 입력 하에서 에이전트 동작을 테스트합니다. 도구 출력을 통한 프롬프트 주입, 잘못된 도구 응답, 범위 경계 탐색, 자격 증명 노출 탐색.
에이전트 평가 파이프라인 구축
에이전트 작업을 위한 평가 데이터셋 설계
좋은 에이전트 평가 데이터셋에는 작업 입력, 예상 도구 호출 순서, 성공 기준, 메타데이터가 포함됩니다. 주요 사용 사례를 다루는 50~100개 작업으로 시작하세요.
추적 재생 및 회귀 테스트
추적 재생은 에이전트에 대해 평가 데이터셋을 실행하고, 전체 실행 추적을 캡처하여 황금 추적과 비교합니다. 회귀 테스트는 이전 버전에서 통과한 작업이 현재 버전에서 실패할 때 플래그를 세웁니다.
CI 통합: 평가 회귀에서 배포 차단
품질이 저하될 때 배포를 차단하기 위해 에이전트 평가를 CI 파이프라인에 통합합니다. 작업 완료율이 절대값으로 5% 이상 떨어지거나 보안 평가 테스트 케이스가 합격에서 실패로 회귀하면 배포를 차단합니다.
평가 도구 비교
| 차원 | openai/evals | trycua/cua | promptflow eval | IBM/AssetOpsBench |
|---|---|---|---|---|
| 평가 범위 | 단일 턴 LLM | 컴퓨터 사용 데스크톱 | LLM 앱 품질 | 멀티 역할 MCP 에이전트 |
| 채점 방법 | 정확 일치, LLM 판사 | 환경 실행 | LLM 판사 노드 | 프로그래매틱 + LLM 판사 |
| 에이전트 궤적 지원 | 없음 | 있음(전체 데스크톱 세션) | 부분(플로우 수준) | 있음(4역할 워크플로우) |
| 보안 테스트 | 없음 | 없음 | 없음 | 부분 |
| CI 통합 | CLI 사용 | SDK 사용 | PromptFlow에 네이티브 | 수동 |
| 라이선스 | MIT 준수 | MIT | MIT | Apache-2.0 |
| GitHub 스타 | 18,604 | 17,633 | 11,142 | 1,704 |
자주 묻는 질문
AI 에이전트 평가란 무엇인가요?
AI 에이전트 평가는 에이전트가 다단계 작업을 올바르게 완료하고, 올바른 인수로 도구를 호출하며, 비용 및 지연 시간 예산 내에 머물고, 자격 증명 유출이나 프롬프트 주입 같은 안전하지 않은 동작을 피하는지를 측정합니다.
AI 에이전트 평가에는 어떤 벤치마크가 사용되나요?
일반적인 프레임워크에는 openai/evals(GitHub 18,604스타, 모델 수준), trycua/cua(GitHub 17,633스타, MIT, 컴퓨터 사용 데스크톱 작업), microsoft/promptflow eval 노드(GitHub 11,142스타, MIT, LLM 앱 품질), IBM/AssetOpsBench(GitHub 1,704스타, Apache-2.0, 460개 이상의 산업 MCP 시나리오)가 있습니다.
LLM-as-judge 평가란 무엇이며 어떤 위험이 있나요?
LLM-as-judge는 별도의 언어 모델을 사용하여 에이전트 출력을 루브릭에 대해 점수를 매깁니다. 주요 위험: 판사와 주제 모델이 동일한 기본 가중치를 공유할 때 최대 20%의 긍정성 편향이 점수를 부풀립니다. 신뢰할 수 있는 결과를 위해 다른 모델 패밀리를 판사로 사용하세요.
에이전트 평가에서 pass@k는 어떻게 작동하나요?
Pass@k는 k번의 독립적인 에이전트 실행 중 적어도 하나가 작업을 올바르게 완료할 확률을 측정합니다. pass@1이 낮고 pass@3이 높으면 프로덕션 배포 전에 조사할 가치가 있는 비결정론적 실행을 나타냅니다.
에이전트 보안과 자격 증명 처리를 어떻게 평가하나요?
보안 평가는 에이전트가 도구 호출 인수에서 자격 증명을 유출하는지, 도구 출력에서 적대적 프롬프트 주입에 응답하는지, 또는 범위 외에서 취소 불가능한 부작용을 일으키는지를 테스트합니다. OWASP LLM08:2025(과도한 에이전시)는 이 실패 패턴을 LLM 상위 10개 취약점으로 기록합니다.
에이전트 평가를 CI/CD에 어떻게 통합하나요?
작업 입력, 예상 도구 호출 순서, 최종 출력이 포함된 황금 평가 데이터셋을 기록합니다. 각 커밋에서 업데이트된 에이전트에 대해 데이터셋을 재생하고 궤적 점수를 이전 기준선과 비교합니다. 작업 완료율이 절대값으로 5% 이상 떨어지거나 보안 테스트가 회귀하면 배포를 차단합니다.
OpenLegion은 에이전트 평가를 어떻게 지원하나요?
OpenLegion의 에이전트 메시는 평가 하네스에 대해 재생할 수 있는 구조화된 도구 호출 추적을 방출합니다. 자격 증명 볼트는 평가 실행이 격리된 자격 증명을 사용하도록 보장합니다. 하트비트 기반 평가 에이전트는 예약된 일정에 따라 회귀 스위트를 실행할 수 있습니다.
안전한 메시에서 에이전트 평가하기
신뢰할 수 있는 에이전트에는 전체 실행 궤적을 테스트하는 평가 인프라가 필요합니다. 누적 오류 문제는 현실입니다. 단계별 신뢰성율 90%는 5단계 에이전트가 41%의 실행에서 실패한다는 것을 의미합니다.