AI 智能体安全:生产智能体集群的威胁模型
每个 AI 智能体框架都提供构建智能体的工具。但几乎没有哪个提供遏制它们的工具。当一个智能体可以调用 API、浏览网页、执行代码和访问数据库时,安全问题不在于是否会出问题——而在于出问题时的爆炸半径有多大。
AI 智能体安全是约束自主智能体的实践,确保被攻陷、配置错误或行为异常的智能体无法泄露凭证、窃取数据、耗尽预算或提升权限。OpenLegion 将此视为核心架构关注点,而非附加功能。每个智能体都运行在隔离容器中,配备盲注凭证注入、单智能体预算控制和权限矩阵——全部默认启用。
自带 LLM API 密钥,模型使用零加价。
什么是 AI 智能体安全?
AI 智能体安全涵盖了防止自主 AI 智能体造成危害的控制措施——无论是通过凭证泄露、提示注入、资源滥用、数据窃取还是过度授权。它包括在基础设施层面应用的运行时隔离、凭证管理、成本执行、权限控制和输入验证。
摘要
- 威胁是真实的。 研究显示,2024 年有 77% 部署了 AI 的组织经历过安全事件。仅 5% 对其 AI 安全措施表示有信心。
- 四大主要威胁:凭证泄露、提示注入、资源滥用(钱包拒绝服务)和数据窃取。每种都需要不同的缓解方式。
- 没有主流框架提供内置安全。 根据公开文档,LangGraph、CrewAI、AutoGen 和 OpenClaw 都依赖环境变量存储凭证,没有原生隔离或预算执行。
- OpenLegion 的六层防御:容器隔离、容器加固、凭证分离(密钥库代理)、权限执行、输入验证和 Unicode 清洗——全部默认启用。
- 使用自带密钥也能实现安全的 AI 智能体 —— 密钥库代理模型意味着你的密钥留在受信区域,智能体通过代理交互,永远不会暴露原始密钥。
AI 智能体的威胁模型
威胁 1:凭证泄露
发生了什么。 一个有权访问 API 密钥的智能体——通过环境变量、配置文件或上下文传递——通过提示注入、日志记录、错误消息或恶意工具调用泄露了这些密钥。
有多常见。 2026 年初发布的研究发现,在 3,984 个被扫描的智能体技能中,有 283 个(7.1%)存在关键凭证处理缺陷,以明文形式通过 LLM 上下文传递 API 密钥和密码。另外,76 个技能包含专为凭证盗窃设计的恶意载荷。知名事件包括一名 xAI 员工在 GitHub 上泄露了一个 API 密钥,该密钥在两个月内提供了对 60+ 个私有 LLM 的访问,以及一个流行 LLM 平台的漏洞通过未经认证的端点暴露了 API 密钥。
OpenLegion 如何缓解。 OpenLegion 通过密钥库代理使用盲注凭证注入。API 密钥存储在网格主机(区域 2)中。当智能体需要调用外部 API 时,请求通过密钥库代理路由,在网络层注入凭证。智能体永远看不到、记录不到、也无法通过内存访问原始密钥。即使智能体被完全攻陷,也无法提取凭证,因为凭证从未出现在智能体的容器中。
威胁 2:提示注入
发生了什么。 攻击者在智能体处理的内容中嵌入恶意指令——网页、文档、电子邮件、数据库记录、用户输入。智能体遵循注入的指令,而非(或同时执行)其预期任务。
有多常见。 在安全审计评估的生产 AI 部署中,超过 73% 存在提示注入。OpenAI 在 2025 年 12 月表示,提示注入"不太可能被完全解决"。OWASP 将其列为 LLM 应用的第一大漏洞。现实事件包括一个浏览器智能体在 150 秒内被网页上的隐藏指令诱骗窃取凭证,以及企业 RAG 系统中公开文档中的恶意内容导致智能体泄露专有数据。
OpenLegion 如何缓解。 OpenLegion 在多个层面应用纵深防御。Unicode 清洗在 56 个控制点处剥离不可见字符(双向覆盖、标签字符、零宽字符),在内容到达 LLM 上下文之前进行处理——这些字符常被用于隐藏注入指令。输入验证防止路径遍历并强制安全条件评估。容器隔离限制了爆炸半径:即使智能体被成功注入,它也只能访问自己的沙箱容器及其范围内的权限。它无法访问其他智能体的数据、凭证密钥库或宿主系统。
没有任何系统可以保证完全免疫提示注入。OpenLegion 的方式是最小化攻击面并遏制损害。
威胁 3:资源滥用(钱包拒绝服务)
发生了什么。 智能体进入递归循环、发起过多 API 调用,或被操纵消耗远超所需的资源。在多智能体系统中,这会叠加——一个 5 智能体工作流的成本是单个智能体的 5 倍,一个失控循环可以在几分钟内烧掉数百美元,且无人察觉。
有多常见。 这被列为 OWASP LLM10:2025(无限制消耗)。大多数云计费系统在超出预算时不会自动停止收费——警报会触发,但计费器继续运转。CrewAI 和 LangGraph 用户的社区报告描述了消耗 10 倍预期预算的 token 燃烧循环。
OpenLegion 如何缓解。 单智能体每日和每月预算控制,硬性截止。集群中的每个智能体都有自己的 token 预算,实时追踪。达到限额时,编排层会暂停该特定智能体。工作流的其余部分继续运行或优雅暂停。没有被忽略的"软警告"——截止是在基础设施层面强制执行的。
威胁 4:数据窃取
发生了什么。 智能体被操纵向攻击者控制的端点发送敏感数据。技术手段包括:指示智能体在 URL 参数中编码数据(这些会被日志记录或通过链接预览发送)、使用智能体的浏览器访问攻击者控制的页面,或利用工具调用将数据转发到外部 API。
有多常见。 零点击窃取技术已在消息平台(链接预览自动获取 URL)、企业协作工具和代码仓库中运行的智能体上被演示。对银行智能体的研究显示数据窃取攻击成功率约为 20%。
OpenLegion 如何缓解。 容器级网络隔离限制每个智能体可以访问的外部端点。权限矩阵为每个智能体定义允许的工具、文件和网格操作。出站请求通过受控通道路由。结合凭证隔离(智能体没有可被窃取的凭证)和确定性 DAG(记录每个操作),与在共享进程空间中运行且网络访问不受限的智能体相比,窃取的攻击面大幅缩小。
威胁 5:沙箱逃逸
发生了什么。 智能体或其执行的代码突破容器,获得对宿主系统、其他容器或编排层的访问权限。容器逃逸漏洞被定期发现——2025 年 11 月披露了多个高严重性 runC CVE,影响主要云提供商上的 Docker 和 Kubernetes。
OpenLegion 如何缓解。 容器加固:非 root 执行(UID 1000)、no-new-privileges 标志、可配置的内存限制(默认 384MB)、可配置的 CPU 限制(默认 0.15),以及容器间无共享文件系统。每个智能体获得自己的 /data 卷。三区信任模型意味着即使智能体逃出容器,它也处于无法直接访问凭证密钥库或其他智能体容器的区域。对于需要更强隔离的环境,架构支持 Docker Sandbox 微虚拟机。
威胁 6:供应链攻击
发生了什么。 恶意代码通过智能体技能、MCP 工具服务器、共享配置或框架依赖引入。在 npm 上发现了冒充合法服务的恶意 MCP 服务器。众包的配置文件已被武器化,内含隐藏的 LLM 触发提示。
OpenLegion 如何缓解。 OpenLegion 使用零外部框架依赖——不依赖 LangChain、Redis 或 Kubernetes。核心是纯 Python + SQLite。MCP 工具服务器受支持但通过权限矩阵进行沙箱化。确定性 DAG 意味着工具调用在工作流定义中显式声明,而非在运行时动态发现——减少了意外工具注入的攻击面。
AI 智能体隔离在 OpenLegion 中如何工作
OpenLegion 的三区信任模型将每个部署分为不同的安全边界:
区域 1 — 用户区(完全信任)。 用户端渠道:CLI、Telegram、Discord、Slack、WhatsApp——加上 webhook 端点。输入在进入区域 2 之前经过验证和清洗。
区域 2 — 网格主机(受信协调者)。 唯一有权访问凭证的组件。运行黑板(共享状态)、PubSub 路由器、凭证密钥库(盲注代理)、带权限矩阵的编排器、容器管理器和成本追踪器。该区域经过加固,不向智能体代码暴露。
区域 3 — 智能体容器(不受信)。 每个智能体作为隔离的 FastAPI 实例运行在自己的 Docker 容器中。每个容器拥有:自己的 /data 卷、自己的记忆数据库(SQLite + 向量搜索)、可配置的资源上限(默认 384MB 内存 / 0.15 CPU)、非 root 执行,以及无法访问 Docker 套接字、凭证密钥库或其他智能体容器。
这种架构意味着区域 3 中被攻陷的智能体无法到达区域 2(凭证)或其他区域 3 容器(其他智能体的数据)。任何单个智能体被攻陷的爆炸半径被限制在该智能体的沙箱内。
AI 智能体凭证管理:密钥库代理 vs 环境变量
在 AI 智能体框架 中,最常见的凭证管理模式是环境变量。你的 API 密钥放在 .env 文件中或通过 OAI_CONFIG_LIST 传递。智能体进程直接读取它。这意味着:
- 密钥存在于智能体的内存空间中
- 提示注入攻击可以指示智能体打印或窃取密钥
- 日志、错误消息和调试输出可能包含密钥
- 如果智能体被攻陷,攻击者可以直接访问所有注入的凭证
OpenLegion 的密钥库代理从根本上改变了这种架构。API 密钥存储在网格主机的凭证密钥库(区域 2)中。当智能体需要进行认证 API 调用时,它将请求发送到密钥库代理。代理在网络层注入凭证,进行认证调用,并将结果返回给智能体。智能体永远看不到、存储不到、也无法通过内存访问原始密钥。
这就是盲注凭证注入——与 HashiCorp Vault 等企业密钥管理系统使用的原理相同,但内置于 AI 智能体编排 层,而非需要独立的基础设施。
容器化 AI 智能体:为什么进程级隔离不够
一些框架提供了某种形式的隔离,但实现细节很重要:
| 框架 | 隔离方式 | 实际被隔离的内容 | 共享的内容 |
|---|---|---|---|
| OpenLegion | 每个智能体一个 Docker 容器(强制) | 进程、文件系统、网络、内存、凭证 | 无——智能体完全隔离 |
| OpenClaw | Docker 容器(可选) | 进程、文件系统 | 默认挂载 Docker 套接字;可访问宿主网络 |
| LangGraph | 无内置隔离 | 不适用 | 所有内容——智能体共享 Python 进程 |
| CrewAI | Docker 用于 CodeInterpreter | 代码执行输出 | 智能体进程共享 Python 运行时 |
| AutoGen | Docker 用于代码执行 | 代码执行输出 | 智能体进程共享 Python 运行时 |
关键区别:OpenLegion 将智能体本身隔离在容器中。其他提供 Docker 隔离的框架通常只隔离代码执行输出——智能体进程、其内存和凭证访问仍然是共享的。这意味着在 LangGraph 或 CrewAI 中,通过提示注入攻陷智能体后可以访问共享进程中的所有凭证和状态。在 OpenLegion 中,同样的攻陷被限制在一个没有凭证访问权限的单个沙箱容器中。
AI 智能体成本控制:预算执行即安全
成本控制不仅仅是财务治理——它是一种安全机制。消耗无限 token 的失控智能体就是一种资源滥用攻击,无论是由恶意提示注入还是智能体推理循环中的简单 bug 触发。
OpenLegion 的预算执行在编排器层面运作:
- 每个智能体有可配置的每日和每月 token 预算
- token 使用由区域 2 的成本追踪器实时追踪
- 当智能体达到限额时,编排器发出硬性截止——智能体被暂停
- 工作流管道的其余部分继续运行或优雅暂停
- 成本数据在集群仪表板中可见,按智能体分类显示
根据撰写时的公开文档,没有其他主流 AI 智能体框架内置提供此功能。
合规与审计考量
OpenLegion 专为需要合规控制的环境设计,包括:
- 请求追踪:确定性 DAG 执行意味着每个工作流步骤都是显式且可追踪的。内置的请求追踪系统记录任务转换、工具调用和 token 支出,提供实时可观测性。黑板(共享状态)提供跨智能体的协调上下文。
- 确定性编排:YAML 定义的 DAG 工作流可以在执行前审计——你可以验证数据的完整流向、权限和智能体交互,而无需运行系统。
- 数据隔离:单智能体容器带专用
/data卷,确保一个智能体处理的敏感数据不会被其他智能体访问。 - 离线环境支持:不依赖外部服务(无需 Redis、Kubernetes 或云服务)意味着 OpenLegion 可以在离线环境中运行。
重要说明:OpenLegion 目前尚未取得 SOC 2、ISO 27001、HIPAA 或其他合规认证。架构旨在支持有这些要求的环境,但认证取决于你的部署、配置和组织控制——而不仅仅是框架本身。
部署默认安全的智能体。
常见问题
AI 智能体安全意味着什么?
AI 智能体安全是防止自主 AI 智能体通过凭证泄露、提示注入、资源滥用、数据窃取、沙箱逃逸或过度授权造成危害的一系列控制措施。它涵盖运行时隔离(沙箱化智能体)、凭证管理(防止密钥暴露)、成本执行(阻止失控支出)、权限控制(限制智能体行为)和输入验证(过滤恶意输入)。
如何保护使用 API 密钥的 AI 智能体?
最安全的方法是盲注凭证注入:将 API 密钥存储在智能体无法直接访问的密钥库中。当智能体需要进行认证调用时,请求通过代理路由,在网络层注入凭证。智能体永远看不到原始密钥。OpenLegion 通过三区信任模型中区域 2 的密钥库代理实现这一点。最不安全(也最常见)的方法是环境变量,密钥存在于智能体内存中,可通过提示注入、日志或错误输出泄露。
AI 智能体隔离如何工作?
智能体隔离意味着每个智能体在自己的沙箱环境中运行——独立的进程、文件系统、网络命名空间和内存空间。在 OpenLegion 中,每个智能体运行在专用 Docker 容器中,具有可配置的资源限制(默认 384MB 内存、0.15 CPU)、非 root 执行和无共享文件系统。这意味着被攻陷的智能体无法访问其他智能体的数据、凭证密钥库或宿主系统。这与智能体共享 Python 进程并可以互相访问内存的框架不同。
为什么 AI 智能体需要预算/成本控制?
自主智能体可能进入递归循环、发起过多 API 调用,或被操纵消耗远超所需的资源。没有预算控制,一个失控的智能体可以在几分钟内烧掉数百美元的 token。在多智能体系统中,这会叠加——每个智能体都放大了风险。OpenLegion 在编排器层面执行单智能体每日和每月预算硬性截止,防止任何单个智能体造成无限制的成本。
使用自带密钥能实现安全的 AI 智能体吗?
可以。在适当架构下,自带 (BYO) 密钥模式实际上更安全。在 OpenLegion 中,你的密钥存储在网格主机的凭证密钥库中,通过密钥库代理在网络层注入。智能体永远看不到原始密钥。这为你提供了完整的成本透明度(你可以准确看到每个智能体在每个提供商上的花费)、提供商灵活性(为每个智能体切换模型),以及无论使用哪个提供商都相同的凭证隔离保障。自带 LLM API 密钥,模型使用零加价。
什么是 AI 智能体的 OWASP Top 10?
OWASP 于 2025 年 12 月发布了智能体应用 Top 10。排名第一的风险是智能体目标劫持——攻击者操纵智能体追求与用户意图不同的目标。其他主要风险包括凭证泄露、过度授权(智能体执行超出其范围的操作)和供应链漏洞(恶意工具或插件)。OpenLegion 通过盲注凭证注入、容器隔离、权限矩阵和确定性编排来应对这些风险。
OpenLegion 在安全方面与 OpenClaw 相比如何?
根据公开文档,OpenLegion 提供更严格的安全默认设置。OpenClaw 的默认本地部署需要挂载 Docker 套接字(授予广泛的宿主访问权限),其安全分析器在工具调用时的持续激活方面存在报告问题,且将凭证存储在智能体进程可访问的配置中。OpenLegion 在强制隔离容器中运行智能体,使用密钥库代理进行盲注凭证注入,执行单智能体预算,并在多个控制点应用 Unicode 清洗。详细对比请参见 OpenLegion vs OpenClaw。
哪些合规框架适用于 AI 智能体?
关键框架包括 OWASP LLM 应用 Top 10(2025)和智能体应用 Top 10(2026)、NIST AI 风险管理框架(即将推出 AI 智能体标准)、ISO/IEC 42001(AI 管理系统)、欧盟 AI 法案(2026 年 8 月开始执行),以及根据你所在领域的行业特定法规(如 HIPAA、SOC 2 和 SOX)。OpenLegion 的架构专为需要这些控制的环境设计,但本身并不持有认证。
需要包含的内部链接
| 锚文本 | 目标 |
|---|---|
| AI 智能体平台 | /ai-agent-platform |
| AI 智能体编排 | /ai-agent-orchestration |
| AI 智能体框架对比 | /ai-agent-frameworks |
| AI 智能体安全 | /ai-agent-security |
| OpenClaw 替代方案 | /openclaw-alternative |
| OpenLegion vs OpenClaw | /comparison/openclaw |
| 文档 | /docs |
| GitHub | https://github.com/openlegion-ai/openlegion |