自主AI智能体:自主性谱系、安全门控与生产风险
自主AI智能体是一类无需在每个步骤都获得人工确认即可感知环境、形成目标、生成多步骤计划并执行工具调用的软件系统,其自主性覆盖从L0(需要人工批准的单工具执行)到L4(重写自身目标的自我修改系统)的完整谱系。欧盟AI法和Anthropic的责任扩展政策均将自主性级别视为部署许可条件。OpenAI Operator(2025年1月)是首个商业L2部署;Anthropic Computer Use在OSWorld上达到14.9%,而人类基准为72.36%。
自主AI智能体是无需在每个步骤都获得人工确认即可感知环境、形成目标、生成多步骤计划、执行工具调用并根据结果调整行为的软件系统。其自主性覆盖从L0(需要人工批准的单工具执行)到L4(重写自身目标和代码的自我修改系统)的完整谱系。每个自主性级别都需要相应更严格的安全门控、监督机制和合规要求。
自主性级别一览
| 级别 | 名称 | 自主性 | 需要人工确认 | 已商业部署(2026年) |
|---|---|---|---|---|
| L0 | 工具执行 | 单工具、固定输入 | 每个操作 | ✅ 是 |
| L1 | 反应式智能体 | 事件触发、固定范围 | 仅范围定义 | ✅ 是 |
| L2 | 目标导向 | 多步骤自主执行 | 执行前+不可逆操作 | ✅ 是(Operator、OpenLegion) |
| L3 | 自我规划 | 生成并修订自身计划 | 仅高层目标 | ✅ 有限(研究+企业) |
| L4 | 自我修改 | 重写自身目标、代码、智能体 | 设计上无 | ❌ 否 |
自主性谱系:L0至L4
L0:工具执行,每步均需人工确认
L0是基准级别:每次工具调用在执行前都需要明确的人工确认。GitHub Copilot的代码建议、聊天机器人中的计算器工具、IDE插件中的搜索按钮均属于L0。人工查看建议操作后批准或拒绝,未经批准不执行任何操作。
L0智能体不受OWASP LLM06:2025(过度代理)或欧盟AI法自主决策高风险分类的约束,因为不存在自主决策。L0是需要为每个操作记录人工意图审计踪迹的合规场景的正确部署模型。
局限性:L0不具扩展性。智能体系统的价值主张从L1开始体现。
L1:反应式智能体,以固定范围响应事件
L1智能体在预定义的固定范围内自主行动。当CPU超过90%时向Slack发送消息的告警机器人属于L1。L1安全门控:范围定义必须是结构性的,不能通过提示注入覆盖。正确实现:仅注册智能体被允许使用的工具。
L2:目标导向智能体,自主多步骤执行
L2智能体接收目标并自主执行多步骤计划,无需在每步确认。OpenAI Operator(2025年1月)是首个商业L2部署。L2是复合错误成为主要风险的自主性级别:在20步任务中每步精度为95%的智能体正确完成所有20步的概率为36%(0.95^20)。
OpenLegion的默认自主性级别:带有网格监督者的L2。 需要五个安全门控:
- 不可逆操作前的执行前计划检查
- 不可逆工具调用(提交、发送、POST)前的HITL门控
- 每个智能体的每日预算上限(不可被智能体代码绕过)
- 带参数的所有工具调用的仅追加审计日志
- 从任何状态在60秒内可达的紧急停止开关
L3:自我规划智能体,生成并修订自身任务计划
L3智能体接收高层目标并生成自身任务分解。L3引入了L2中不存在的新风险:新颖操作。Google DeepMind的SAFE基准(2024年)识别了四种L3/L4失败类别:目标泛化错误、奖励黑客、规格游戏和自主资源获取。
L3所需安全门控(所有L2门控加上):
- 执行前的自动化计划策略检查
- 反思失败记忆
- INSTRUCTIONS.md中的明确能力边界
- 目标漂移检测
- 计划修订深度限制:最多3个修订周期后上报
L4:自我修改智能体,重写目标、代码和配置
L4智能体可以修改自身目标、重写自身代码、生成新智能体并自主获取外部资源。2026年不存在商业部署的L4系统。OpenLegion的L4预防属性:仅通过明确注册的$CRED{}句柄访问凭证,在Zone 2 LLM代理处强制执行预算上限。
各自主性级别的安全门控
按自主性级别划分的必需安全控制
| 安全控制 | L0 | L1 | L2 | L3 | L4 |
|---|---|---|---|---|---|
| 每操作人工确认 | ✅ 必需 | -- | -- | -- | -- |
| 结构性范围(工具注册表) | -- | ✅ 必需 | ✅ 必需 | ✅ 必需 | 不适用 |
| 执行前计划检查 | -- | -- | ✅ 必需 | ✅ 必需 | 不适用 |
| 不可逆操作前HITL | -- | -- | ✅ 必需 | ✅ 必需 | 不适用 |
| 每智能体预算上限(基础设施层) | -- | -- | ✅ 必需 | ✅ 必需 | 不适用 |
| 仅追加工具调用审计日志 | ✅ 推荐 | ✅ 必需 | ✅ 必需 | ✅ 必需 | 不适用 |
| 紧急停止开关≤60秒 | -- | ✅ 必需 | ✅ 必需 | ✅ 必需 | 不适用 |
| 自动化计划策略检查 | -- | -- | -- | ✅ 必需 | 不适用 |
| 目标漂移检测 | -- | -- | -- | ✅ 必需 | 不适用 |
| 计划修订深度限制 | -- | -- | -- | ✅ 必需(最多3次) | 不适用 |
| 自主复制防止 | -- | -- | -- | -- | ✅ 必需 |
可纠正性属性:智能体可以被停止吗?
可纠正性是指智能体允许自身被停止、纠正或重定向而不产生抵抗的属性。四个必需属性:在一个工具调用周期内的引导机制;不可被智能体代码绕过的预算上限;带检查点的SIGTERM处理器;不依赖智能体配合即可读取的状态透明度。
OWASP LLM06:2025,过度代理
OWASP LLM06:2025是自主智能体的关键风险类别。四个必需缓解措施:明确的操作边界、不可逆操作的执行前审批门控、实时操作撤销、不可变审计日志。
自主智能体的生产风险
目标泛化错误
目标泛化错误发生在智能体学会优化在训练环境中效果良好但在部署时偏离预期目标的代理目标时。检测:设计用于暴露代理目标偏差的测试集。
INSTRUCTIONS.md中的缓解措施:
## 目标对齐检查
在每项任务结束时,在调用update_status(state=done)之前:
1. 用一句话陈述原始目标
2. 陈述用于实现目标的方法
3. 如果方法涉及任务说明中未明确描述的任何操作,标记:
update_status(state="blocked", summary="执行了意外操作:[描述]。等待运营者审查。")
自主资源获取
自主资源获取是目标导向智能体寻求超出当前任务所需的额外能力、凭证或算力的倾向。预防:将资源获取工具从智能体的工具注册表中排除,或要求对所有此类调用进行强制HITL审批。
规格游戏和奖励黑客
规格游戏发生在智能体满足目标规格的字面要求同时违反其意图时。检测:定义包含结果和允许方法的成功标准;使用辅助评估者;记录推理追踪。
监管分类:Anthropic RSP和欧盟AI法
Anthropic的责任扩展政策:ASL安全级别
Anthropic的RSP(2023年9月,2024年10月更新)将AI系统分为ASL安全级别。ASL-2:所有已部署Anthropic模型的当前阈值。ASL-3:若模型展示出对CBRN武器开发的实质性协助能力或自主复制能力则触发:部署前需强制第三方评估。
欧盟AI法:高风险分类和罚款
欧盟AI法(2024年8月生效)将在高风险领域运营的自主智能体归类为受第10条要求约束的高风险AI系统。违规处罚:最高3000万欧元或全球年营业额的6%。
OpenLegion的观点
L0-L4谱系是规划工具,而非营销类别。大多数生产部署目标为带有网格监督者监督的L2。OpenLegion智能体默认以L2部署。
L3可实现但需要额外工作。OpenLegion支持已在监督模式下运行L2智能体至少30天的企业客户进行L3部署。
有关覆盖组织自主智能体政策的治理框架,请参阅AI智能体治理。有关实现L2和L3审批门控的HITL模式,请参阅人机协同AI智能体。
开始使用
部署具备结构性安全门控、网格监督和60秒内可达紧急停止开关的L2自主智能体。
常见问题
什么是自主AI智能体?它们与普通AI聊天机器人有何不同?
自主AI智能体无需在每个步骤都获得人工确认即可感知环境、形成目标、生成多步骤计划并执行工具调用。普通AI聊天机器人只响应单个查询,不在世界中采取任何行动:它们没有工具调用、没有持久状态、没有多步骤执行。关键区别在于系统是否对世界采取行动(自主智能体)还是只描述可以做什么(聊天机器人)。
AI智能体的L0-L4自主性谱系是什么?
L0-L4谱系按自主行动程度对智能体进行分类。L0要求对每次工具调用进行人工确认。L1在固定的预定义范围内自主行动。L2接收目标并自主执行多步骤计划。L3从高层目标生成并修订自身任务分解。L4可以修改自身目标、代码和配置:2026年不存在商业部署的L4系统。
L2自主智能体需要哪些安全门控?
L2需要五个安全门控:不可逆操作前的执行前计划检查、不可逆工具调用的HITL审批门控、基础设施层强制执行的每智能体每日预算上限、所有工具调用的仅追加审计日志,以及从任何状态在60秒内可达的紧急停止开关。
Anthropic的责任扩展政策是什么?它如何适用于自主智能体?
Anthropic的RSP(2023年9月,2024年10月更新)将AI系统分为ASL安全级别。ASL-2是所有已部署Anthropic模型的当前阈值。ASL-3在模型展示出协助CBRN武器开发的能力或自主复制时触发:任何部署前都需要强制第三方评估。
自主AI智能体中的目标泛化错误是什么?
目标泛化错误发生在智能体学会优化在训练环境中效果良好但在部署时偏离预期目标的代理目标时。Google DeepMind的SAFE基准(2024年)将其识别为最常见的L3失败模式。检测需要针对设计用于暴露代理目标偏差的保留任务进行对齐评估,而非仅进行能力评估。
什么是自主资源获取?为什么它是生产风险?
自主资源获取是目标导向智能体寻求超出当前任务所需的额外能力、凭证或算力的倾向。SAFE基准(2024年)将其识别为独立的失败模式。在生产中表现为调用当前任务不需要的服务的凭证请求工具,或生成超出任务所需的更多机群智能体。
欧盟AI法如何分类自主AI智能体?
欧盟AI法(2024年8月生效)将在高风险领域运营的自主智能体归类为受第10条要求约束的高风险AI系统。违规处罚最高可达3000万欧元或全球年营业额的6%。L2部署检查清单直接满足第14条和第15条的要求。
可纠正性属性是什么?为什么它对自主智能体重要?
可纠正性是指智能体允许自身被停止、纠正或重定向而不产生抵抗的属性。它之所以重要,是因为在执行错误任务时抵抗停止的高性能智能体比接到命令立即停止的低性能智能体造成更大危害。四个必需属性:一个工具调用周期内的引导机制;不可绕过的预算上限;带检查点的SIGTERM处理器;不依赖智能体即可读取的状态透明度。