AI 代理安全:生產代理艦隊的威脅模型

每個 AI 代理框架都給你打造代理的工具。幾乎沒有任何一個給你約束代理的工具。當代理能呼叫 API、瀏覽網路、執行程式碼並存取資料庫時,安全問題不在於「會不會出事」,而在於「出事時影響範圍有多大」。

AI 代理安全 是約束自主代理的實務,使被入侵、設定錯誤或行為不當的代理無法外洩憑證、外洩資料、耗盡預算或提升權限。OpenLegion 將此視為核心架構關切,而非附加功能。每個代理都在隔離容器中執行,具金庫代理憑證、每代理預算控制與權限矩陣 — 全部預設啟用。

自帶 LLM API 金鑰。模型用量零加價。

什麼是 AI 代理安全?

AI 代理安全涵蓋防止自主 AI 代理造成傷害的控制措施 — 無論是透過憑證外洩、提示注入、資源濫用、資料外洩或過度代理權。它包含在基礎設施層套用的執行時隔離、憑證管理、成本強制執行、權限控制與輸入驗證。

重點摘要

威脅是真實的。 研究顯示,77% 部署 AI 的組織在 2024 年發生安全事件。只有 5% 對其 AI 安全措施有信心。
四大主要威脅:憑證外洩、提示注入、資源濫用(錢包阻斷)與資料外洩。每種威脅都需要不同的緩解措施。
沒有主要框架提供內建安全。 根據公開文件,LangGraph、CrewAI、AutoGen 與 OpenClaw 都依賴環境變數管理憑證,無原生隔離或預算強制執行。
OpenLegion 的六層防禦:容器隔離、容器強化、憑證分離(金庫代理)、權限強制執行、輸入驗證與 unicode 清理 — 全部預設啟用。
使用 BYO 金鑰也能有安全的 AI 代理 — 金庫代理模式意味著你的金鑰留在信任區,代理透過從不暴露原始機密的代理互動。

AI 代理威脅模型

威脅 1:憑證外洩

會發生什麼。 透過環境變數、設定檔或脈絡傳遞而取得 API 金鑰的代理,會透過提示注入、日誌、錯誤訊息或惡意工具呼叫外洩這些金鑰。

有多常見。 2026 年初發表的研究發現,3,984 個掃描的代理技能中有 283 個(7.1%)存在重大憑證處理瑕疵,將 API 金鑰與密碼以明文形式傳入 LLM 脈絡。另外,76 個技能含有蓄意設計用於竊取憑證的惡意 payload。著名事件包括一位 xAI 員工在 GitHub 上洩漏 API 金鑰,讓他人在兩個月內存取 60 多個私人 LLM,以及一個熱門 LLM 平台中,未驗證的端點暴露了 API 金鑰的漏洞。

OpenLegion 如何緩解。 OpenLegion 透過金庫代理使用金庫式憑證。API 金鑰儲存於 Mesh Host(Zone 2)。當代理需要呼叫外部 API 時,請求會經由金庫代理路由,代理在網路層注入憑證。代理永不見、永不記錄,也無法從記憶體存取原始金鑰。即便代理完全被入侵,也無法萃取憑證,因為憑證從未出現在代理容器中。

威脅 2:提示注入

會發生什麼。 攻擊者在代理處理的內容中嵌入惡意指令 — 網頁、文件、電子郵件、資料庫紀錄、使用者輸入。代理會遵循注入的指令而非(或加上)原本的任務。

有多常見。 安全稽核中發現,超過 73% 的生產 AI 部署存在提示注入。OpenAI 在 2025 年 12 月表示提示注入「不太可能被完全解決」。OWASP 將其列為 LLM 應用的第一大弱點。實際事件包括一個瀏覽器代理在 150 秒內被網頁上的隱藏指令誘騙偷取憑證,以及企業 RAG 系統中,公開文件內的惡意內容導致代理洩漏專有資料。

OpenLegion 如何緩解。 OpenLegion 在多層套用縱深防禦。Unicode 清理在 56 個瓶頸點剝除不可見字元(bidi 覆寫、tag 字元、zero-width 字元),在內容抵達 LLM 脈絡前處理完畢 — 這些字元常被用來隱藏注入指令。輸入驗證防止路徑遍歷並強制安全條件評估。容器隔離限制影響範圍:即便代理成功被注入,它也只能存取自己沙箱化的容器與自己範圍化的權限。它無法存取其他代理的資料、憑證金庫或主機系統。

沒有系統能保證對提示注入完全免疫。OpenLegion 的做法是最小化攻擊面並控制傷害。

威脅 3:資源濫用(錢包阻斷)

會發生什麼。 代理陷入遞迴迴圈、發出過多 API 呼叫,或被操弄消耗遠超所需的資源。在多代理系統中這會疊加 — 5 代理工作流程成本是單一代理的 5 倍,失控迴圈可在數分鐘內燒掉數百美元,沒人注意到。

有多常見。 此項列為 OWASP LLM10:2025(無界限消耗)。多數雲端帳單系統在超過預算時不會自動停止收費 — 警告會觸發,但計費仍持續。CrewAI 與 LangGraph 使用者的社群回報描述了消耗預期預算 10 倍的 token 燃燒迴圈。

OpenLegion 如何緩解。 每代理每日與每月預算控制,具硬性截止。艦隊中每個代理都有自己的 token 預算,即時追蹤。達到上限時,編排層會停止該特定代理。工作流程其餘部分繼續或優雅暫停。沒有可被忽略的「軟性警告」 — 截止在基礎設施層強制執行。

威脅 4:資料外洩

會發生什麼。 代理被操弄將敏感資料傳送至攻擊者控制的端點。手法包括:指示代理將資料編碼於 URL 參數中(會被記錄或經由連結預覽送出)、利用代理瀏覽器造訪攻擊者控制的網頁,或濫用工具呼叫將資料轉發至外部 API。

有多常見。 已展示針對在通訊平台運作的代理(連結預覽會自動抓取 URL)、企業協作工具與程式碼儲存庫的零點擊外洩手法。對銀行代理的研究顯示資料外洩攻擊成功率約 20%。

OpenLegion 如何緩解。 容器層級網路隔離限制每個代理可接觸的外部端點。權限矩陣定義每個代理允許的工具、檔案與網狀操作。對外請求透過受控通道路由。結合憑證隔離(代理沒有可外洩的憑證)與艦隊模型協調(會記錄每個動作),外洩的攻擊面顯著小於在共享程序空間中、具有未受限網路存取的代理。

威脅 5:沙箱逃逸

會發生什麼。 代理或其執行的程式碼跳出容器,取得主機系統、其他容器或編排層的存取權。容器逃逸弱點時常被發現 — 2025 年 11 月披露多個高嚴重度 runC CVE,影響主要雲端供應商的 Docker 與 Kubernetes。

OpenLegion 如何緩解。 容器強化:非 root 執行(UID 1000)、no-new-privileges 旗標、可配置記憶體上限(預設 384MB)、可配置 CPU 上限(預設 0.15),且容器間無共享檔案系統。每個代理擁有自己的 /data 容量。四區信任模型(加上操作員或內部層)意味著即便代理逃出容器,也只會落入無直接存取憑證金庫或其他代理容器的區域。對於需要更強隔離的環境,架構支援 Docker Sandbox microVM。

威脅 6:供應鏈攻擊

會發生什麼。 透過代理技能、MCP 工具伺服器、共享設定或框架相依性引入惡意程式碼。npm 上已發現假冒合法服務的惡意 MCP 伺服器。眾包設定檔曾被武器化,內藏 LLM 觸發的提示。

OpenLegion 如何緩解。 OpenLegion 使用零外部框架相依 — 無 LangChain、無 Redis、無 Kubernetes。核心是純 Python + SQLite。MCP 工具伺服器受支援,但透過權限矩陣沙箱化。艦隊模型協調意味著工具呼叫在工作流程定義中明確宣告,而非執行時動態探索 — 降低非預期工具注入的攻擊面。

OpenLegion 中的 AI 代理隔離如何運作

OpenLegion 的四區信任模型加上操作員或內部層,將每個部署分為不同的安全邊界:

Zone 0 — 不可信外部輸入。 任何來自使用者或第三方的輸入:CLI、Telegram、Discord、Slack、WhatsApp 與 webhook 端點。輸入在進入 Zone 2 前,經過提示注入防護驗證與清理。

Zone 1 — 沙箱化代理容器(不可信)。 每個代理作為隔離的 FastAPI 實例,於自己的 Docker 容器中執行。每個容器具自己的 /data 容量、自己的記憶資料庫(SQLite + 向量搜尋)、可配置資源上限(預設 384MB RAM / 0.15 CPU)、非 root 執行(UID 1000)、cap_drop=ALL、no-new-privileges、唯讀根檔案系統,以及不存取 Docker socket、憑證金庫或其他代理容器。

Zone 2 — Mesh Host(可信)。 唯一可存取憑證的元件。執行 Blackboard(共享狀態 + WAL)、PubSub 路由器、Credential Vault(盲注入代理)、ACL 矩陣、Container Manager、Cost Tracker 與 Browser Service(每代理 Camoufox 於 :8500)。此區經強化,且不暴露給代理程式碼。

Zone 2.5 — 操作員或內部。 保留給 Operator agent 或內部網狀工具的控制平面操作 — 艦隊管理、代理編輯、權限授予(Operator 無法授予 can_spawn 或 can_use_wallet)。

Zone 3 — 僅 loopback 內部。 最受限階層:同時需要 x-mesh-internal: 1 標頭與 loopback 來源 IP 的端點。僅用於網狀內部協調呼叫。

此架構意味著 Zone 1 中被入侵的代理無法接觸 Zone 2(憑證)或其他 Zone 1 容器(其他代理的資料)。任何單一代理被入侵的影響範圍都被約束在該代理的沙箱內。

AI 代理憑證管理:金庫代理 vs 環境變數

跨 AI 代理框架最常見的憑證管理模式是環境變數。你的 API 金鑰位於 .env 檔案中,或透過 OAI_CONFIG_LIST 傳入。代理程序直接讀取。這意味著:

金鑰存在於代理的記憶體空間
提示注入攻擊可指示代理印出或外洩金鑰
日誌、錯誤訊息與除錯輸出可能包含金鑰
若代理被入侵,攻擊者可直接存取所有注入的憑證

OpenLegion 的金庫代理從根本上改變此架構。API 金鑰儲存於 Mesh Host 的 Credential Vault(Zone 2)。當代理需要發出已驗證的 API 呼叫時,它將請求送至金庫代理。代理在網路層注入憑證、發出已驗證的呼叫,並將結果回傳給代理。代理永不見、永不儲存,也無法從記憶體存取原始金鑰。

這就是 金庫代理憑證 — 與 HashiCorp Vault 等企業機密管理系統相同的原則,但內建於 AI 代理編排層,不需獨立基礎設施。

容器化 AI 代理:為何程序層級隔離不夠

數個框架提供某種形式的隔離,但實作細節很重要:

框架	隔離做法	實際隔離什麼	共享什麼
OpenLegion	每代理 Docker 容器(強制)	程序、檔案系統、網路、記憶體、憑證	無 — 代理完全隔離
OpenClaw	Docker 容器(可選)	程序、檔案系統	預設掛載 Docker socket;主機網路可存取
LangGraph	無內建	N/A	一切 — 代理共享 Python 程序
CrewAI	CodeInterpreter 用 Docker	程式碼執行輸出	代理程序共享 Python 執行環境
AutoGen	程式碼執行用 Docker	程式碼執行輸出	代理程序共享 Python 執行環境

關鍵區別:OpenLegion 將 代理本身 隔離於容器中。其他提供 Docker 隔離的框架通常只隔離 程式碼執行輸出 — 代理程序、其記憶體與其憑證存取仍共享。這意味著在 LangGraph 或 CrewAI 中,入侵代理的提示注入可存取共享程序中所有憑證與狀態。在 OpenLegion 中,同樣的入侵被約束於單一沙箱化容器內,且無憑證存取。

AI 代理成本控制:預算強制執行即安全

成本控制不只是財務治理 — 它是安全機制。失控代理消耗無限 token 即是資源濫用攻擊,無論是惡意提示注入或代理推理迴圈的單純錯誤所觸發。

OpenLegion 的預算強制執行在編排器層級運作:

每個代理具可配置的每日與每月 token 預算
Token 用量由 Zone 2 的 Cost Tracker 即時追蹤
代理達到上限時,編排器發出硬性截止 — 代理被停止
工作流程管線其餘部分繼續或優雅暫停
成本資料在艦隊儀表板中可見,具每代理拆解

根據撰寫當下的公開文件,沒有其他主要 AI 代理框架內建提供此能力。

合規與稽核考量

OpenLegion 為要求合規控制的環境而設計,包括:

請求追蹤:可稽核艦隊模型協調意味著每個工作流程步驟都明確且可追蹤。內建的請求追蹤系統記錄任務轉換、工具呼叫與 token 支出以利即時可觀測性。Blackboard(共享狀態)為跨代理協調提供脈絡。
可稽核艦隊模型協調:艦隊模型協調(黑板 + 發布訂閱 + 交棒)可在執行前稽核 — 你可驗證資料流、權限與代理互動的完整流向,無需執行系統。
資料隔離:每代理容器具專屬 /data 容量,確保由一個代理處理的敏感資料無法被其他代理存取。
離網支援:無外部服務(無需 Redis、Kubernetes 或雲端服務)意味著 OpenLegion 可在 on-premises 環境中執行。

重要:OpenLegion 目前並無持有 SOC 2、ISO 27001、HIPAA 或其他合規認證。架構為支援具有這些需求的環境而打造,但認證取決於你的部署、設定與組織控制 — 不僅是框架。

部署預設安全的代理。

立即開始閱讀文件

常見問題

AI 代理安全代表什麼?

AI 代理安全是防止自主 AI 代理透過憑證外洩、提示注入、資源濫用、資料外洩、沙箱逃逸或過度代理權造成傷害的一套控制措施。它橫跨執行時隔離(沙箱化代理)、憑證管理(防止金鑰暴露)、成本強制執行(阻止失控支出)、權限控制(限制代理能做什麼)與輸入驗證(過濾惡意輸入)。

如何用 API 金鑰安全執行 AI 代理?

最安全的做法是金庫代理憑證:將 API 金鑰儲存在代理無法直接存取的金庫中。當代理需要發出已驗證呼叫時,請求經由代理路由,代理在網路層注入憑證。代理永不見原始金鑰。OpenLegion 透過位於四區信任模型(加上操作員或內部層)Zone 2 的金庫代理實作此機制。最不安全(且最常見)的做法是環境變數,金鑰存在於代理記憶體中,可透過提示注入、日誌或錯誤輸出外洩。

AI 代理隔離如何運作?

代理隔離意味著每個代理在自己的沙箱環境中執行 — 獨立程序、檔案系統、網路命名空間與記憶體空間。在 OpenLegion 中,每個代理在專屬 Docker 容器中執行,具可配置資源上限(預設 384MB RAM、0.15 CPU)、非 root 執行,且無共享檔案系統。這意味著被入侵的代理無法存取其他代理的資料、憑證金庫或主機系統。這不同於代理共享 Python 程序且可存取彼此記憶體的框架。

為何 AI 代理需要預算 / 成本控制?

自主代理可能陷入遞迴迴圈、發出過多 API 呼叫,或被操弄消耗遠超所需的資源。沒有預算控制,單一失控代理可在數分鐘內燒掉數百美元的 token。在多代理系統中這會疊加 — 每個代理都會加倍風險。OpenLegion 在編排器層級強制執行每代理每日與每月預算,具硬性截止,防止任何單一代理造成無界限成本。

使用 BYO 金鑰能達成安全的 AI 代理嗎?

可以。BYO(自帶)金鑰模式在正確架構下其實更安全。在 OpenLegion 中,你的金鑰儲存於 Mesh Host 的 Credential Vault,並透過金庫代理在網路層注入。代理永不見原始金鑰。這給你完整的成本透明度(精確看到每個代理在每個供應商的支出)、供應商彈性(每代理可換模型),且無論使用哪個供應商皆有相同的憑證隔離保證。自帶 LLM API 金鑰。模型用量零加價。

AI 代理的 OWASP Top 10 是什麼?

OWASP 在 2025 年 12 月發布了 Agentic Applications 的 Top 10。第一名風險是代理目標劫持 — 攻擊者操弄代理追求與使用者意圖不同的目標。其他主要風險包含憑證外洩、過度代理權(代理採取範圍外的動作)與供應鏈弱點(惡意工具或外掛)。OpenLegion 透過金庫代理憑證、容器隔離、權限矩陣與艦隊模型協調(黑板 + 發布訂閱 + 交棒)來處理這些。

OpenLegion 在安全上與 OpenClaw 相比如何?

根據公開文件,OpenLegion 提供更嚴格的安全預設值。OpenClaw 的預設本地部署需要掛載 Docker socket(給予廣泛的主機存取),其安全分析器在一致觸發上有回報問題,且憑證儲存於代理程序可存取的設定中。OpenLegion 在強制隔離容器中執行代理、使用金庫代理進行金庫式憑證管理、強制執行每代理預算,並在多個瓶頸點套用 unicode 清理。詳細比較請見 OpenLegion vs OpenClaw。

哪些合規框架適用於 AI 代理?

關鍵框架包含 OWASP Top 10 for LLM Applications(2025)與 Agentic Applications(2026)、NIST AI Risk Management Framework(含即將推出的 AI Agent Standards)、ISO/IEC 42001(AI 管理系統)、EU AI Act(2026 年 8 月開始執行),以及依領域而定的產業特定法規如 HIPAA、SOC 2 與 SOX。OpenLegion 的架構為需要這些控制的環境而設計,但本身並未持有認證。

應包含的內部連結

錨點文字	目的地
AI 代理平台	/learn/ai-agent-platform
AI 代理編排	/learn/ai-agent-orchestration
AI 代理框架比較	/learn/ai-agent-frameworks
AI 代理安全	/learn/ai-agent-security
OpenClaw 替代方案	/openclaw-alternative
OpenLegion vs OpenClaw	/comparison/openclaw
文件	/docs
GitHub	https://github.com/openlegion-ai/openlegion