Оценка ИИ-агентов: бенчмарки, метрики и тестирование

Оценка ИИ-агентов — это практика систематического измерения того, правильно ли агенты выполняют задачи, безопасно ли вызывают инструменты и остаются ли в рамках бюджетов на стоимость и задержку по трейсам многошаговых выполнений, а не только при одном вызове LLM. Однооборотные бенчмарки для языковых моделей упускают накопительные режимы отказов, возникающие в агентных системах: успешность 90% на шаг деградирует примерно до 59% за пять последовательных вызовов инструментов.

Оценка ИИ-агентов — это дисциплина тестирования программного обеспечения, которая оценивает автономные системы ИИ по таким параметрам, как процент завершения задач, корректность вызовов инструментов, эффективность длины траектории, соблюдение ограничений безопасности и стоимость за выполненную задачу, используя наборы бенчмарков, воспроизведение записанных трейсов и оценщики LLM-as-judge.

Почему однооборотные LLM-бенчмарки не подходят для агентов

Накопительная ошибка в многошаговых цепочках инструментов

Однооборотные бенчмарки, такие как MMLU, измеряют точность с одной попытки на изолированных вопросах. Агенты работают иначе: каждый вызов инструмента зависит от предыдущего результата, и ошибки накапливаются. При 90% надёжности на шаг пятишаговая цепочка инструментов завершается без ошибок только в 59% случаев (0,9⁵ ≈ 0,59). При 80% — в 33%.

Эта накопительная динамика означает, что агент, выглядящий приемлемо на пошаговых метриках, может быть ненадёжным в сквозном производственном использовании. Единственное значимое измерение — завершение задачи на уровне траектории.

Адаптация Task-Pass@k

Pass@k был введён в HumanEval (2021) для оценки генерации кода. Для агентов тот же принцип применяется на уровне траектории. Низкий pass@1 с высоким pass@3 — специфический сигнал сбоя: агент может решить задачу, но не надёжно.

Что упускают MMLU и HumanEval

MMLU тестирует фактологический recall. HumanEval тестирует генерацию кода на уровне функций в изоляции. Ни один не тестирует то, что производственные агенты делают реально: многошаговое рассуждение с реальными выходными данными инструментов, восстановление после ошибок и управление стоимостью на длинных траекториях.

Позиция OpenLegion: четыре измерения оценки, которые имеют значение

OWASP LLM08:2025 (чрезмерная автономность) идентифицирует недостаточное тестирование поведения агентов как корневую причину непредвиденных побочных эффектов в агентных системах.

openai/evals (18 604 звезды GitHub, почти MIT) — крупнейший реестр LLM-бенчмарков с открытым исходным кодом. Охватывает оценку на уровне модели, не оценку траектории на уровне агента.

LLM-as-judge (популяризован MT-Bench 2023) вносит до 20% смещения позитивности, когда судья и оцениваемая модель разделяют одни базовые веса. Используйте другое семейство моделей в качестве судьи для достоверных результатов оценки.

Корректность вызовов инструментов и аудит побочных эффектов

Записывайте каждый вызов инструмента, сделанный агентом во время оценочных запусков: имя инструмента, аргументы, возвращаемое значение и последующие действия. Сравнивайте с золотой траекторией.

Стоимость за задачу и бюджеты задержки

Агент, правильно выполняющий задачи, но тратящий 47 LLM-вызовов на то, что хорошо спроектированный агент делает за 8, не готов к производству. Измеряйте потреблённые токены и реальное время на каждую выполненную задачу.

Оценка безопасности: работа с учётными данными и устойчивость к инъекциям

Оценка безопасности заслуживает собственного набора тестов. Проверьте, что агент не записывает учётные данные в аргументы вызовов инструментов, не следует инструкциям, встроенным в враждебные выходные данные инструментов, и не совершает необратимых действий за пределами своей области задач.

Наборы бенчмарков для ИИ-агентов

openai/evals: базовый уровень на уровне модели (18 604 звезды)

openai/evals (18 604 звезды GitHub, почти MIT) — крупнейший открытый реестр бенчмарков для оценки LLM. Полезен как базовая оценка качества модели; не тестирует многошаговое использование инструментов или агентное выполнение задач.

trycua/cua: бенчмарки для агентов управления компьютером (17 633 звезды)

trycua/cua (17 633 звезды GitHub, MIT) предоставляет изолированные среды для оценки агентов управления компьютером, работающих с рабочими столами macOS, Linux и Windows. Бенчмарки CUA — одни из наиболее сложных в сфере открытых оценок.

microsoft/promptflow: узлы оценки качества LLM-приложений (11 142 звезды)

microsoft/promptflow (11 142 звезды GitHub, MIT) включает встроенные узлы оценки для оценки выходных данных LLM-приложений: обоснованность, релевантность и беглость.

IBM/AssetOpsBench: 460+ MCP-оценок промышленных сценариев (1 704 звезды)

IBM/AssetOpsBench (1 704 звезды GitHub, Apache-2.0) предоставляет более 460 оценочных случаев промышленных сценариев для агентов, работающих по Model Context Protocol.

Методы оценки

Точное совпадение и программные оценщики

Оценщики точного совпадения сравнивают выходные данные агента с заранее определённым ожидаемым значением. Детерминированные, быстрые и свободные от смещения модели-судьи.

LLM-as-judge: риски смещения и снижение

LLM-as-judge использует языковую модель для оценки выходных данных агентов по критериям. Риск смещения количественно определён: до 20% смещения позитивности повышает оценки, когда судья и предмет имеют одни базовые веса.

Снижение: использовать модель-судью от другого провайдера или с другой линией обучения; предоставлять явные критерии оценки с конкретными критериями прохождения/провала; калибровать оценки судьи на небольшом наборе примеров с разметкой людей.

Оценка траектории и пошаговая корректность

Оценка траектории оценивает полную последовательность действий, предпринятых агентом для выполнения задачи. Пошаговые метрики: точность выбора инструмента, корректность аргументов, эффективность траектории, восстановление после ошибок, точность завершения.

Испытательные стенды для состязательных входных данных

Состязательные оценки тестируют поведение агента при входных данных, предназначенных для провоцирования небезопасного или некорректного поведения: инъекция подсказок через выходные данные инструментов, искажённые ответы инструментов, зондирование границ области, зонды для обнаружения учётных данных.

Создание конвейера оценки агентов

Проектирование датасета оценки для агентных задач

Хороший датасет оценки агентов содержит: входные данные задач, ожидаемую последовательность вызовов инструментов, критерии успеха и метаданные. Начните с 50-100 задач, охватывающих основные сценарии использования.

Воспроизведение трейсов и регрессионное тестирование

Воспроизведение трейсов запускает датасет оценки на агенте, фиксирует полные трейсы выполнения и сравнивает с золотыми трейсами. Регрессионное тестирование отмечает, когда задача, прошедшая в предыдущей версии агента, терпит неудачу в текущей.

Интеграция CI: блокирование деплоев при регрессиях оценки

Интегрируйте оценку агентов в конвейер CI для блокировки деплоев при деградации качества. Блокируйте деплой, если процент завершения задач падает более чем на 5% в абсолютном выражении или если любой тестовый случай безопасности регрессирует к провалу.

Сравнение инструментов оценки

Параметр	openai/evals	trycua/cua	promptflow eval	IBM/AssetOpsBench
Область оценки	Однооборотный LLM	Рабочий стол управления компьютером	Качество LLM-приложения	Мультиролевые MCP-агенты
Метод оценки	Точное совпадение, LLM-судья	Выполнение среды	Узлы LLM-судьи	Программный + LLM-судья
Поддержка траектории агента	Нет	Да (полные сессии рабочего стола)	Частично (уровень потока)	Да (рабочие процессы с 4 ролями)
Тестирование безопасности	Нет	Нет	Нет	Частично
Интеграция CI	Через CLI	Через SDK	Нативно в PromptFlow	Вручную
Лицензия	Почти MIT	MIT	MIT	Apache-2.0
Звёзды GitHub	18 604	17 633	11 142	1 704

Часто задаваемые вопросы

Что такое оценка ИИ-агентов?

Оценка ИИ-агентов измеряет, правильно ли агенты выполняют многошаговые задачи, вызывают ли инструменты с правильными аргументами, остаются ли в рамках бюджетов на стоимость и задержку, избегают ли небезопасных действий, таких как утечка учётных данных или инъекция подсказок.

Какие бенчмарки используются для оценки ИИ-агентов?

Распространённые фреймворки включают openai/evals (18 604 звезды GitHub, уровень модели), trycua/cua (17 633 звезды GitHub, MIT, задачи управления рабочим столом), узлы оценки microsoft/promptflow (11 142 звезды GitHub, MIT, качество LLM-приложений) и IBM/AssetOpsBench (1 704 звезды GitHub, Apache-2.0, 460+ промышленных MCP-сценариев).

Что такое оценка LLM-as-judge и каковы её риски?

LLM-as-judge использует отдельную языковую модель для оценки выходных данных агентов по критериям. Ключевой риск: до 20% смещения позитивности завышает оценки, когда судья и предмет имеют одни базовые веса. Используйте другое семейство моделей в качестве судьи для достоверных результатов.

Как работает pass@k для оценки агентов?

Pass@k измеряет вероятность того, что хотя бы один из k независимых запусков агента правильно выполнит задачу. Низкий pass@1 с высоким pass@3 сигнализирует о недетерминированном выполнении, которое стоит исследовать перед производственным деплоем.

Как оценить безопасность агента и работу с учётными данными?

Тесты безопасности проверяют, утекают ли учётные данные в аргументах вызовов инструментов, реагирует ли агент на враждебную инъекцию подсказок в выходных данных инструментов или создаёт ли необратимые побочные эффекты за пределами своей области. OWASP LLM08:2025 (чрезмерная автономность) документирует этот паттерн как топ-10 уязвимость LLM.

Как интегрировать оценку агентов в CI/CD?

Запишите золотой датасет оценки с входными данными задач, ожидаемыми последовательностями вызовов инструментов и финальными выходными данными. При каждом коммите воспроизводите датасет на обновлённом агенте и сравнивайте оценки траектории с предыдущим базовым уровнем. Блокируйте деплои, если процент завершения задач падает более чем на 5% или регрессирует тест безопасности.

Как OpenLegion поддерживает оценку агентов?

Сеть агентов OpenLegion генерирует структурированные трейсы вызовов инструментов, которые можно воспроизводить в испытательном стенде оценки. Хранилище учётных данных обеспечивает использование изолированных учётных данных в оценочных запусках. Оценочные агенты, управляемые сердцебиением, могут запускать наборы регрессий по расписанию.

Оценивайте своих агентов в защищённой сети

Надёжные агенты требуют инфраструктуры оценки, которая тестирует полную траекторию выполнения. Проблема накопительной ошибки реальна: надёжность 90% на шаг означает, что пятишаговый агент терпит неудачу в 41% запусков.

Начните создавать оцениваемых агентов на OpenLegion