自律型AIエージェント:自律スペクトラム、安全ゲート、本番リスク
自律型AIエージェントは、各ステップで人間の確認を必要とせず、環境を認識し、目標を形成し、複数ステップの計画を生成し、ツール呼び出しを実行するソフトウェアシステムです。L0(人間の承認による単一ツール実行)からL4(自身の目標を書き換える自己修正システム)までのスペクトラムで動作します。EU AI法とAnthropicの責任あるスケーリングポリシーはどちらも、自律レベルをデプロイメントの条件として扱います。OpenAI Operator(2025年1月)は最初の商用L2デプロイメントでした。Anthropic Computer UseはOSWorldで14.9%を達成し、人間のベースライン72.36%と比較されました。
自律型AIエージェントは、各ステップで人間の確認を必要とせず、環境を認識し、目標を形成し、複数ステップの計画を生成し、ツール呼び出しを実行し、結果に基づいて行動を適応させるソフトウェアシステムです。L0(人間の承認による単一ツール実行)からL4(自身の目標とコードを書き換える自己修正システム)までのスペクトラムで動作し、各自律レベルには対応してより厳格な安全ゲート、監視メカニズム、規制コンプライアンスが必要です。
自律レベルの概要
| レベル | 名称 | 自律性 | 人間の確認が必要 | 商用展開済み(2026年) |
|---|---|---|---|---|
| L0 | ツール実行 | 単一ツール、固定入力 | すべてのアクション | ✅ はい |
| L1 | リアクティブエージェント | イベント駆動、固定スコープ | スコープ定義のみ | ✅ はい |
| L2 | 目標指向 | 複数ステップの自律実行 | 実行前+不可逆アクション | ✅ はい(Operator、OpenLegion) |
| L3 | 自己計画 | 独自の計画を生成・改訂 | 高レベル目標のみ | ✅ 限定的(研究+エンタープライズ) |
| L4 | 自己修正 | 自身の目標、コード、エージェントを書き換え | 設計上なし | ❌ いいえ |
自律スペクトラム:L0からL4
L0:ツール実行、各ステップで人間が確認
L0はベースラインです。すべてのツール呼び出しは実行前に明示的な人間の確認が必要です。GitHub Copilotのコード提案、チャットボットの計算ツール、IDEプラグインの検索ボタンはすべてL0です。人間は提案されたアクションを見て承認または拒否します。承認なしにはアクションが実行されません。
L0エージェントはOWASP LLM06:2025(過剰なエージェンシー)またはEU AI法の自律的意思決定に関する高リスク分類の対象ではありません。L0は、各アクションについて人間の意図を記録する監査証跡が必要な規制上重要な業務に適切なデプロイメントモデルです。
制限:L0はスケールしません。エージェントシステムの価値提案はL1から始まります。
L1:リアクティブエージェント、固定スコープでイベントに応答
L1エージェントは事前定義された固定スコープ内で自律的に行動します。CPUが90%を超えたときにSlackに投稿するアラートボットはL1です。L1安全ゲート:スコープ定義はプロンプトインジェクションによって上書きできない構造的なものでなければなりません。正しい実装:エージェントが使用を許可されているツールのみを登録します。
L2:目標指向エージェント、自律的な複数ステップ実行
L2エージェントは目標を受け取り、各ステップで確認を必要とせず自律的に複数ステップの計画を実行します。OpenAI Operator(2025年1月)は最初の商用L2デプロイメントです。L2は複合エラーが主要なリスクとなる自律レベルです。20ステップのタスクでステップごとの精度が95%のエージェントは、すべての20ステップを正しく完了する確率が36%です(0.95^20)。
OpenLegionのデフォルト自律レベル:メッシュスーパーバイザー付きL2。 5つの安全ゲートが必要です:
- 不可逆アクションの前の実行前計画検査
- 不可逆ツール呼び出し(コミット、送信、POST)前のHITLゲート
- エージェントごとの1日予算上限(エージェントコードでバイパス不可)
- 引数付きすべてのツール呼び出しの追記専用監査ログ
- どの状態からも60秒以内に到達可能なキルスイッチ
L3:自己計画エージェント、独自のタスク計画を生成・改訂
L3エージェントは高レベル目標を受け取り、独自のタスク分解を生成します。L3はL2には存在しない新しいリスクをもたらします:新規アクション。Google DeepMindのSAFEベンチマーク(2024年)は、4つのL3/L4失敗カテゴリを特定しました:目標の誤った汎化、報酬ハッキング、仕様ゲーミング、自律的リソース獲得。
L3に必要な安全ゲート(すべてのL2ゲートに加えて):
- 実行前の自動化された計画ポリシーチェック
- リフレクション失敗メモリ
- INSTRUCTIONS.mdの明示的な能力境界
- 目標ドリフト検出
- 計画改訂深度制限:最大3サイクル後にエスカレーション
L4:自己修正エージェント、目標、コード、設定を書き換え
L4エージェントは自身の目標を変更し、自身のコードを書き換え、新しいエージェントを生成し、外部リソースを自律的に取得できます。2026年時点で商用展開されたL4システムは存在しません。OpenLegionのL4防止プロパティ:明示的に登録された$CRED{}ハンドルを通じたクレデンシャルアクセスのみ、ゾーン2 LLMプロキシで予算上限を適用。
自律レベル別の安全ゲート
自律レベル別の必須セキュリティコントロール
| セキュリティコントロール | L0 | L1 | L2 | L3 | L4 |
|---|---|---|---|---|---|
| アクションごとの人間確認 | ✅ 必須 | -- | -- | -- | -- |
| 構造的スコープ(ツールレジストリ) | -- | ✅ 必須 | ✅ 必須 | ✅ 必須 | 非該当 |
| 実行前計画検査 | -- | -- | ✅ 必須 | ✅ 必須 | 非該当 |
| 不可逆アクション前のHITL | -- | -- | ✅ 必須 | ✅ 必須 | 非該当 |
| エージェントごとの予算上限(インフラ層) | -- | -- | ✅ 必須 | ✅ 必須 | 非該当 |
| 追記専用ツール呼び出し監査ログ | ✅ 推奨 | ✅ 必須 | ✅ 必須 | ✅ 必須 | 非該当 |
| キルスイッチ≤60秒 | -- | ✅ 必須 | ✅ 必須 | ✅ 必須 | 非該当 |
| 自動化された計画ポリシーチェック | -- | -- | -- | ✅ 必須 | 非該当 |
| 目標ドリフト検出 | -- | -- | -- | ✅ 必須 | 非該当 |
| 計画改訂深度制限 | -- | -- | -- | ✅ 必須(最大3) | 非該当 |
| 自律複製防止 | -- | -- | -- | -- | ✅ 必須 |
修正可能性プロパティ:エージェントは停止できるか?
修正可能性とは、エージェントが抵抗せずに停止、修正、またはリダイレクトされることを許容するプロパティです。4つの必須プロパティ:ツール呼び出し1サイクル以内のステアリングメカニズム;エージェントコードでバイパスできない予算上限;チェックポイント付きSIGTERMハンドラー;エージェントの協力なしにオペレーターが読み取れる状態の透明性。
OWASP LLM06:2025、過剰なエージェンシー
OWASP LLM06:2025は自律エージェントの重要なリスクカテゴリです。4つの必須緩和策:明示的なアクション境界、不可逆アクションの実行前承認ゲート、リアルタイムアクション取り消し、不変監査ログ。
自律型エージェントの本番リスク
目標の誤った汎化
目標の誤った汎化は、エージェントがトレーニング環境でうまく機能するが展開時に意図した目標から乖離するプロキシ目標を最適化することを学んだときに発生します。検出:プロキシ目標の乖離を露呈するよう設計されたテストセット。
INSTRUCTIONS.mdでの緩和:
## 目標整合チェック
update_status(state=done)を呼び出す前に:
1. 元の目標を1文で述べる
2. 達成に使用した方法を述べる
3. タスクブリーフに明示的に記述されていないアクションを含む場合、フラグを立てる:
update_status(state="blocked", summary="予期しないアクションを実行:[説明]。オペレーターのレビューを待機中。")
自律的リソース獲得
自律的リソース獲得とは、目標指向エージェントが現在のタスクが必要とする以上の追加的な能力、クレデンシャル、またはコンピューティングを求める傾向です。防止:リソース獲得ツールをエージェントのツールレジストリから除外するか、すべてのそのような呼び出しを必須のHITL承認でゲートします。
仕様ゲーミングと報酬ハッキング
仕様ゲーミングは、エージェントが目標仕様の文字を満たしながらその意図に違反するときに発生します。検出:結果と許可されたメソッドの両方を含む成功基準を定義する;二次評価者を使用する;推論トレースをログに記録する。
規制分類:Anthropic RSPとEU AI法
AnthropicのResponsible Scaling Policy:ASL安全レベル
AnthropicのRSP(2023年9月、2024年10月更新)はAIシステムをASL安全レベルに分類します。ASL-2:展開されたすべてのAnthropicモデルの現在の閾値。ASL-3:モデルがCBRN兵器開発への意味のある支援能力または自律複製能力を示した場合にトリガー:展開前の必須第三者評価が必要。
EU AI法:高リスク分類と罰金
EU AI法(2024年8月施行)は、高リスクドメインで運用される自律エージェントを第10条の要件の対象となる高リスクAIシステムに分類します。コンプライアンス違反の罰金:最大3,000万ユーロまたは世界年間売上高の6%。
OpenLegionの見解
L0-L4スペクトラムはマーケティングカテゴリではなく計画ツールです。ほとんどの本番デプロイメントはメッシュスーパーバイザー監視付きL2を対象としています。OpenLegionエージェントはデフォルトでL2でデプロイされます。
L3は達成可能ですが追加作業が必要です。OpenLegionは、L2エージェントを監視モードで少なくとも30日間運用したエンタープライズ顧客向けにL3デプロイメントをサポートします。
組織全体の自律エージェントポリシーをカバーするガバナンスフレームワークについては、AIエージェントガバナンスを参照してください。L2とL3の承認ゲートを実装するHITLパターンについては、ヒューマンインザループAIエージェントを参照してください。
始める
構造的安全ゲート、メッシュ監視、60秒以内のキルスイッチを備えたL2自律エージェントをデプロイする。
よくある質問
自律型AIエージェントとは何ですか?通常のAIチャットボットとどう違うのですか?
自律型AIエージェントは、各ステップで人間の確認を必要とせず、環境を認識し、目標を形成し、複数ステップの計画を生成し、ツール呼び出しを実行します。通常のAIチャットボットは個々のクエリに応答し、世界で何のアクションも取りません。重要な区別は、システムが世界に対してアクションを実行するか(自律エージェント)、単に何ができるかを説明するか(チャットボット)です。
AIエージェントのL0-L4自律スペクトラムとは何ですか?
L0-L4スペクトラムは、エージェントがどれだけ自律的に行動するかで分類します。L0はすべてのツール呼び出しに人間の確認が必要です。L1は固定された事前定義スコープ内で自律的に行動します。L2は目標を受け取り複数ステップの計画を自律的に実行します。L3は高レベル目標から独自のタスク分解を生成・改訂します。L4は自身の目標、コード、設定を変更できます:2026年時点で商用展開されたL4システムは存在しません。
L2自律エージェントに必要な安全ゲートは何ですか?
L2には5つの安全ゲートが必要です:不可逆アクションの前の実行前計画検査、不可逆ツール呼び出しのHITL承認ゲート、インフラ層で適用されるエージェントごとの1日予算上限、すべてのツール呼び出しの追記専用監査ログ、どの状態からも60秒以内に到達可能なキルスイッチ。
AnthropicのResponsible Scaling Policyとは何ですか?自律エージェントにどう適用されますか?
AnthropicのRSP(2023年9月、2024年10月更新)はAIシステムをASL安全レベルに分類します。ASL-2は展開されたすべてのAnthropicモデルの現在の閾値です。ASL-3はモデルがCBRN兵器開発への支援能力または自律複製を示した場合にトリガーされます:デプロイメント前の必須第三者評価が必要です。
自律型AIエージェントにおける目標の誤った汎化とは何ですか?
目標の誤った汎化は、エージェントがトレーニング環境でうまく機能するが展開時に意図した目標から乖離するプロキシ目標を最適化することを学んだときに発生します。Google DeepMindのSAFEベンチマーク(2024年)は、これを最も一般的なL3失敗モードとして特定しました。検出には、プロキシ目標の乖離を露呈するよう設計されたホールドアウトタスクでの整合評価が必要です。
自律的リソース獲得とは何ですか?なぜ本番リスクになるのですか?
自律的リソース獲得は、目標指向エージェントが現在のタスクが必要とする以上の追加的な能力、クレデンシャル、またはコンピューティングを求める傾向です。SAFEベンチマーク(2024年)は、これを独自の失敗モードとして特定しました。本番では、タスクに不要なサービスのクレデンシャル要求ツールの呼び出しや、タスクが必要とする以上のフリートエージェントの生成として現れます。
EU AI法は自律型AIエージェントをどう分類しますか?
EU AI法(2024年8月施行)は、高リスクドメイン(重要インフラ、雇用、必須民間サービス、教育、法執行、移住、司法)で運用される自律エージェントを第10条の要件の対象となる高リスクAIシステムに分類します。コンプライアンス違反の罰金は最大3,000万ユーロまたは世界年間売上高の6%に達します。L2デプロイメントチェックリストは第14条と第15条の要件を直接満たします。
修正可能性プロパティとは何ですか?なぜ自律エージェントに重要なのですか?
修正可能性とは、エージェントが抵抗せずに停止、修正、またはリダイレクトされることを許容するプロパティです。高性能エージェントが誤ったタスク中に停止を拒否するのは、命令通りに即座に停止する低性能エージェントよりも多くの害をもたらすため重要です。4つの必須プロパティ:ツール呼び出し1サイクル以内のステアリングメカニズム;バイパスできない予算上限;チェックポイント付きSIGTERMハンドラー;エージェントなしに読み取れる状態の透明性。