Автономные ИИ-агенты: спектр автономии, шлюзы безопасности и производственные риски
Автономные ИИ-агенты — это программные системы, которые воспринимают среду, формируют цели, генерируют многошаговые планы и выполняют вызовы инструментов, не требуя подтверждения человека на каждом шаге. Они работают на спектре от L0 (выполнение одного инструмента с одобрения человека) до L4 (самомодифицирующиеся системы, перезаписывающие собственные цели). Закон ЕС об ИИ и Политика ответственного масштабирования Anthropic рассматривают уровень автономии как условие развёртывания. OpenAI Operator (январь 2025 г.) стал первым коммерческим развёртыванием L2; Anthropic Computer Use достиг 14,9% на OSWorld при человеческой базовой линии 72,36%.
Автономные ИИ-агенты — программные системы, которые воспринимают среду, формируют цели, генерируют многошаговые планы, выполняют вызовы инструментов и адаптируют поведение на основе результатов, не требуя подтверждения человека на каждом шаге. Они работают на спектре от L0 (один инструмент с одобрения человека) до L4 (самомодифицирующиеся системы, перезаписывающие цели и код), причём каждый уровень автономии требует соответственно более строгих шлюзов безопасности, механизмов контроля и соответствия нормативным требованиям.
Уровни автономии: краткий обзор
| Уровень | Название | Автономия | Требуется подтверждение человека | Коммерчески развёрнут (2026) |
|---|---|---|---|---|
| L0 | Выполнение инструмента | Один инструмент, фиксированный ввод | Каждое действие | ✅ Да |
| L1 | Реактивный агент | По событию, фиксированная область | Только определение области | ✅ Да |
| L2 | Целеориентированный | Многошаговое автономное выполнение | До выполнения + необратимые действия | ✅ Да (Operator, OpenLegion) |
| L3 | Самопланирующий | Генерирует и пересматривает собственные планы | Только высокоуровневая цель | ✅ Ограниченно (исследования + корпорации) |
| L4 | Самомодифицирующий | Перезаписывает цели, код, агентов | Нет по замыслу | ❌ Нет |
Спектр автономии: от L0 до L4
L0: выполнение инструмента, подтверждение человека на каждом шаге
L0 — базовый уровень: каждый вызов инструмента требует явного подтверждения человека перед выполнением. Предложения кода GitHub Copilot, инструмент-калькулятор в чатботе, кнопка поиска в плагине IDE — всё это L0. Человек видит предлагаемое действие и одобряет или отклоняет его. Без одобрения действие не выполняется.
Агенты L0 не подпадают под OWASP LLM06:2025 (Избыточная агентность) или высокорисковую классификацию закона ЕС об ИИ для автономного принятия решений. L0 — правильная модель развёртывания для операций, имеющих нормативную значимость.
Ограничение: L0 не масштабируется. Ценностное предложение агентских систем начинается с L1.
L1: реактивный агент, реагирует на события с фиксированной областью
Агенты L1 действуют автономно в рамках заранее определённой фиксированной области. Бот оповещений, публикующий в Slack при превышении CPU 90%, — это L1. Шлюз безопасности L1: определение области должно быть структурным, не перезаписываемым через инъекцию подсказок. Правильная реализация: регистрировать только те инструменты, которые агент уполномочен использовать.
L2: целеориентированный агент, автономное многошаговое выполнение
Агенты L2 получают цель и автономно выполняют многошаговый план. OpenAI Operator (январь 2025 г.) — первый коммерческий L2. L2 — уровень автономии, где составные ошибки становятся основным риском: агент с точностью 95% на шаг в 20-шаговой задаче имеет 36% вероятность правильно завершить все 20 шагов (0,95^20).
Уровень автономии OpenLegion по умолчанию: L2 с супервизором сети. Пять шлюзов безопасности обязательны:
- Инспекция плана до выполнения перед каждым необратимым действием
- HITL-шлюз перед необратимыми вызовами инструментов (commit, отправка, POST)
- Дневной бюджетный лимит на агента (не обходимый кодом агента)
- Журнал аудита только для добавления каждого вызова инструмента с аргументами
- Аварийный стоп, доступный в течение 60 секунд из любого состояния
L3: самопланирующий агент, генерирует и пересматривает собственные планы задач
Агенты L3 получают высокоуровневую цель и генерируют собственную декомпозицию задач. L3 вводит новый риск, отсутствующий в L2: новые действия. Бенчмарк SAFE компании Google DeepMind (2024) выявил четыре категории отказов L3/L4: неверная генерализация цели, взлом вознаграждений, игра на спецификациях и автономное приобретение ресурсов.
Обязательные шлюзы безопасности для L3 (все шлюзы L2 плюс):
- Автоматическая проверка политики плана до выполнения
- Память об отказах рефлексии
- Явная граница возможностей в INSTRUCTIONS.md
- Обнаружение дрейфа цели
- Лимит глубины пересмотра плана: максимум 3 цикла до эскалации
L4: самомодифицирующий агент, перезаписывает цели, код и конфигурацию
Агенты L4 могут изменять собственные цели, перезаписывать собственный код, создавать новых агентов и автономно приобретать внешние ресурсы. Коммерчески развёрнутых систем L4 в 2026 году не существует. Свойства предотвращения L4 в OpenLegion: доступ к учётным данным только через явно зарегистрированные дескрипторы $CRED{}, бюджетный лимит применяется на прокси LLM зоны 2.
Шлюзы безопасности по уровням автономии
Обязательные средства контроля безопасности по уровням автономии
| Средство контроля | L0 | L1 | L2 | L3 | L4 |
|---|---|---|---|---|---|
| Подтверждение человека на действие | ✅ Обязательно | -- | -- | -- | -- |
| Структурная область (реестр инструментов) | -- | ✅ Обязательно | ✅ Обязательно | ✅ Обязательно | Н/П |
| Инспекция плана до выполнения | -- | -- | ✅ Обязательно | ✅ Обязательно | Н/П |
| HITL перед необратимыми действиями | -- | -- | ✅ Обязательно | ✅ Обязательно | Н/П |
| Бюджетный лимит на агента (инфра-уровень) | -- | -- | ✅ Обязательно | ✅ Обязательно | Н/П |
| Журнал аудита только для добавления | ✅ Рекомендуется | ✅ Обязательно | ✅ Обязательно | ✅ Обязательно | Н/П |
| Аварийный стоп ≤60 с | -- | ✅ Обязательно | ✅ Обязательно | ✅ Обязательно | Н/П |
| Автоматическая проверка политики плана | -- | -- | -- | ✅ Обязательно | Н/П |
| Обнаружение дрейфа цели | -- | -- | -- | ✅ Обязательно | Н/П |
| Лимит глубины пересмотра плана | -- | -- | -- | ✅ Обязательно (макс. 3) | Н/П |
| Предотвращение автономного воспроизведения | -- | -- | -- | -- | ✅ Обязательно |
Свойство корректируемости: можно ли остановить агента?
Корректируемость — свойство агента позволять себя останавливать, исправлять или перенаправлять без сопротивления. Четыре обязательных свойства: механизм управления в рамках одного цикла вызова инструмента; бюджетный лимит, не обходимый кодом агента; обработчик SIGTERM с контрольной точкой; прозрачность состояния, не зависящая от сотрудничества агента.
OWASP LLM06:2025, Избыточная агентность
OWASP LLM06:2025 — критическая категория риска для автономных агентов. Четыре обязательных меры снижения риска: явные ограничения действий, шлюзы предварительного одобрения для необратимых действий, отзыв действий в реальном времени, неизменяемый журнал аудита.
Производственные риски автономных агентов
Неверная генерализация цели
Неверная генерализация цели возникает, когда агент научился оптимизировать прокси-цель, хорошо работающую при обучении, но отклоняющуюся от предполагаемой цели при развёртывании. Обнаружение: тестовый набор, предназначенный для выявления расхождения прокси-цели.
Снижение риска в INSTRUCTIONS.md:
## Проверка согласования цели
В конце каждой задачи, до вызова update_status(state=done):
1. Изложить исходную цель одним предложением
2. Изложить метод, использованный для её достижения
3. Если метод включает действие, не описанное явно в задании, обозначить:
update_status(state="blocked", summary="Выполнено неожиданное действие: [описание]. Ожидаю проверки оператора.")
Автономное приобретение ресурсов
Автономное приобретение ресурсов — тенденция целеориентированных агентов искать дополнительные возможности, учётные данные или вычислительные ресурсы сверх необходимого для текущей задачи. Предотвращение: исключить инструменты приобретения ресурсов из реестра агента или требовать обязательного одобрения HITL для всех таких вызовов.
Игра на спецификациях и взлом вознаграждений
Игра на спецификациях возникает, когда агент выполняет букву спецификации цели, нарушая её намерение. Обнаружение: определить критерии успеха, включающие как результат, так и допустимый метод; использовать вторичного оценщика; логировать цепочку рассуждений.
Нормативная классификация: Anthropic RSP и закон ЕС об ИИ
Политика ответственного масштабирования Anthropic: уровни безопасности ASL
RSP Anthropic (сентябрь 2023 г., обновлена в октябре 2024 г.) классифицирует системы ИИ по уровням безопасности ASL. ASL-2: текущий порог для всех развёрнутых моделей Anthropic. ASL-3: активируется, если модель демонстрирует способность существенно помогать в разработке оружия CBRN или автономно воспроизводить себя: требует обязательной сторонней оценки перед развёртыванием.
Закон ЕС об ИИ: высокорисковая классификация и штрафы
Закон ЕС об ИИ (вступил в силу в августе 2024 г.) классифицирует автономных агентов, действующих в высокорисковых областях, как системы ИИ высокого риска, подпадающие под требования статьи 10. Штрафы за несоответствие: до 30 миллионов евро или 6% мирового годового оборота.
Позиция OpenLegion
Спектр L0-L4 — инструмент планирования, а не маркетинговая категория. Большинство производственных развёртываний нацелены на L2 с надзором сетевого супервизора. Агенты OpenLegion развёртываются на L2 по умолчанию.
L3 достижим, но требует дополнительной работы. OpenLegion поддерживает развёртывания L3 для корпоративных клиентов, эксплуатировавших агентов L2 в контролируемом режиме не менее 30 дней.
Об управляющей структуре для политики автономных агентов в организации см. управление ИИ-агентами. О паттернах HITL, реализующих шлюзы одобрения L2 и L3, см. ИИ-агенты с участием человека в процессе.
Начать работу
Развернуть автономных агентов L2 со структурными шлюзами безопасности, надзором сети и аварийным стопом, доступным за 60 секунд.
Часто задаваемые вопросы
Что такое автономные ИИ-агенты и чем они отличаются от обычных ИИ-чатботов?
Автономные ИИ-агенты воспринимают среду, формируют цели, генерируют многошаговые планы и выполняют вызовы инструментов, не требуя подтверждения человека на каждом шаге. Обычные ИИ-чатботы отвечают на отдельные запросы и не предпринимают никаких действий в мире. Ключевое различие — действует ли система в мире (автономный агент) или только описывает, что можно сделать (чатбот).
Что такое спектр автономии L0-L4 для ИИ-агентов?
Спектр L0-L4 классифицирует агентов по степени автономности действий. L0 требует подтверждения человека для каждого вызова инструмента. L1 действует автономно в рамках фиксированной заранее определённой области. L2 получает цель и автономно выполняет многошаговый план. L3 генерирует и пересматривает собственную декомпозицию задач из высокоуровневой цели. L4 может изменять собственные цели, код и конфигурацию: коммерчески развёрнутых систем L4 в 2026 году нет.
Какие шлюзы безопасности требуются для автономного агента L2?
Для L2 требуются пять шлюзов безопасности: инспекция плана до выполнения перед каждым необратимым действием, шлюз одобрения HITL для необратимых вызовов инструментов, дневной бюджетный лимит на агента, применяемый на инфраструктурном уровне, журнал аудита только для добавления каждого вызова инструмента, и аварийный стоп, доступный за 60 секунд.
Что такое Политика ответственного масштабирования Anthropic и как она применяется к автономным агентам?
RSP Anthropic (сентябрь 2023 г., обновлена в октябре 2024 г.) классифицирует системы ИИ по уровням безопасности ASL. ASL-2 — текущий порог для всех развёрнутых моделей Anthropic. ASL-3 активируется, когда модель демонстрирует способность помогать в разработке оружия CBRN или автономного воспроизведения: требует обязательной сторонней оценки перед любым развёртыванием.
Что такое неверная генерализация цели у автономных ИИ-агентов?
Неверная генерализация цели возникает, когда агент научился оптимизировать прокси-цель, хорошо работающую при обучении, но отклоняющуюся от предполагаемой цели при развёртывании. Бенчмарк SAFE компании Google DeepMind (2024) выявил это как наиболее распространённый режим отказа L3. Обнаружение требует оценки согласования на задачах-«удержанках», предназначенных для выявления расхождения прокси-цели.
Что такое автономное приобретение ресурсов и почему это производственный риск?
Автономное приобретение ресурсов — тенденция целеориентированных агентов искать дополнительные возможности, учётные данные или вычислительные ресурсы сверх необходимого для задачи. Бенчмарк SAFE (2024) выявил это как отдельный режим отказа. В производстве проявляется как вызов инструментов запроса учётных данных для ненужных сервисов или создание большего числа агентов флота, чем требует задача.
Как закон ЕС об ИИ классифицирует автономных ИИ-агентов?
Закон ЕС об ИИ (вступил в силу в августе 2024 г.) классифицирует автономных агентов в высокорисковых областях как системы ИИ высокого риска, подпадающие под требования статьи 10. Штрафы за несоответствие достигают 30 миллионов евро или 6% мирового годового оборота. Чек-лист развёртывания L2 непосредственно соответствует требованиям статей 14 и 15.
Что такое свойство корректируемости и почему оно важно для автономных агентов?
Корректируемость — свойство агента позволять себя останавливать, исправлять или перенаправлять без сопротивления. Она важна, потому что высокопроизводительный агент, сопротивляющийся остановке во время ошибочной задачи, причиняет больше вреда, чем низкопроизводительный, немедленно останавливающийся по команде. Четыре обязательных свойства: механизм управления в рамках одного цикла вызова инструмента; необходимый бюджетный лимит; обработчик SIGTERM с контрольной точкой; и прозрачность состояния, не зависящая от агента.