KI-Agenten-Observability: Was in der Produktion zu erfassen ist

KI-Agenten-Observability ist die Disziplin, jeden Tool-Call, jede LLM-Invokation und jeden Dollar, den ein autonomer Agent ausgibt, aufzuzeichnen — die nicht-deterministischen Entscheidungen, kumulativen Kosten und Prompt-Injection-Versuche zu erfassen, mit denen traditionelles APM nie umgehen musste. Ohne sie operiert eine Produktionsflotte auf Vertrauensbasis, und ein einziger feststeckender Agent kann stundenlang Compute verbrennen, bevor jemand die Rechnung bemerkt.

Was ist KI-Agenten-Observability?

KI-Agenten-Observability ist die Disziplin, strukturierte Telemetrie von autonomen KI-Agenten zu erfassen — Ausführungs-Traces, Token-Ausgaben, Prompt-Versionen, Tool-Call-Audits und Sicherheitsereignisse — damit Engineers Agenten in Produktion debuggen, governen und optimieren können.

Auf einen Blick

Agenten-Observability ist schwieriger als App-Observability, weil der Kontrollfluss des Agenten zur Laufzeit von einem LLM entschieden wird, nicht von handgeschriebenem Code.
Vier Signale zählen: End-to-End-Traces, Kosten pro Agent, Prompt- und Modell-Versionierung sowie Erfassung von Sicherheitsereignissen (Prompt-Injection-Versuche, ACL-Denies, Budget-Cutoffs).
Die meisten Agenten-Frameworks liefern keine integrierte Observability — Teams schrauben LangSmith, Langfuse oder Arize Phoenix an und entdecken die Lücken nach dem ersten Produktionsvorfall.
OpenLegions Mesh-Dashboard erfasst jeden Tool-Call, jede LLM-Anfrage, jede Kostenposition und jedes Sicherheitsereignis standardmäßig — kein Instrumentierungscode, keine Drittanbieter-Agentenintegration.
Kosten-Observability ist das Budget, das Sie nicht wussten, dass Sie ausgaben: Ohne Pro-Agent-Caps kann ein feststeckender Agent über Nacht hunderte Dollar in API-Aufrufen verbrennen.

Warum KI-Agenten-Observability anders ist

Datadog, Honeycomb, New Relic — jedes traditionelle APM-Tool baute auf zwei Annahmen: Codepfade sind deterministisch, und Request-Handler sind menschengeschrieben. Autonome Agenten brechen beides, auf vier konkrete Weisen:

Der Kontrollfluss wird generiert, nicht codiert. Ein Agent entscheidet zur Laufzeit, ob ein Tool aufgerufen, wiederholt, an einen anderen Agenten übergeben oder aufgegeben wird.
Kosten sind standardmäßig unbegrenzt. Jeder LLM-Aufruf kann weitere Aufrufe nach sich ziehen. Ohne Pro-Agent-Budget-Caps ist eine außer Kontrolle geratene Schleife eine außer Kontrolle geratene Rechnung.
Die Fehlerfläche ist dual: Standard-Fehler (Timeout, 5xx) plus LLM-spezifische Fehler (halluzinierter Tool-Name, fehlerhaftes JSON, Verweigerung, erfolgreiche Prompt-Injection).
Auditierbarkeit ist eine Compliance-Anforderung, kein Nice-to-Have. Regulierte Teams müssen nachweisen, was ein Agent wann, mit welchem Prompt, auf wessen Daten getan hat.

Praktische Konsequenz: Ein Standard-APM-Dashboard sagt Ihnen, dass der Agentenlauf 12 Sekunden dauerte. Es sagt nicht, dass der Agent 47 LLM-Aufrufe gemacht hat, weil er bei Versuch 3 einen Datenbankspaltennamen halluzinierte und in eine Retry-Schleife geriet.

Die vier Signale, die Sie wirklich brauchen

1. End-to-End-Ausführungs-Traces

Jeder Agentenlauf als Baum modelliert: Übergeordneter Task → Tool-Calls → LLM-Round-Trips → Handoffs an Kind-Agenten. Span-Level-Latenz, Status, Eingaben und Ausgaben. OpenTelemetrys GenAI-semantische Konventionen konvergieren hier; Tools, die sie implementieren — Langfuse, Arize Phoenix, Helicone — sind interoperabel.

2. Kosten pro Agent, Task und Provider

Token-Zählungen, Dollar-Umrechnungen pro Provider und Rollups nach Agent, Projekt und Team. Kosten sind das Budget-Signal, das die Ausführung hart abschneiden sollte, nicht nur im Nachhinein darstellen.

3. Prompt- und Modell-Versionierung

Als der Agent regredierte: War es die Prompt-Änderung, das Modell-Upgrade oder Upstream-Datendrift? Ohne versionierte Prompts, die an Läufe gebunden sind, lässt sich das nicht feststellen. Prompt-Registries (LangSmith Hub, Langfuse Prompts, Promptlayer) lösen das alle; die Runtime muss aufzeichnen, welche Version jeder Lauf tatsächlich verwendet hat.

4. Sicherheitsereignisse

Prompt-Injection-Versuche, ACL-Denies, SSRF-Blocks, Budget-Cutoffs, Unicode-Sanitisierungs-Treffer. Das sind die Ereignisse, nach denen Compliance-Reviewer fragen — und die Ereignisse, die einen laufenden Angriff auf Ihre Agenten-Flotte signalisieren.

Was OpenLegion standardmäßig erfasst

Signal	Was erfasst wird	Wo es sichtbar ist
Trace	Jeder Tool-Call, jede LLM-Anfrage, jeder Agenten-Handoff mit Timing	Mesh-Dashboard → Agent Runs
Kosten	Tokens In/Out, Dollar-Kosten pro Provider pro Agent	Dashboard → Cost-Panel
Prompts	System-Prompt-Hash, Version, Modell, Parameter pro Lauf	Per-Run-Detailansicht
Sicherheit	ACL-Denies, Budget-Cutoffs, SSRF-Blocks, Sanitizer-Treffer	Dashboard → Security-Log
Health	Container-Ressourcenverbrauch, Mesh-Latenz, Browser-Pool-Status	Dashboard → Fleet-Panel

Das Dashboard ist Teil der Open-Source-Runtime — kein Managed Service mit Abo-Pflicht. Self-Hosted-Deployments halten alle Telemetrie auf Ihrer Infrastruktur.

Open-Source- vs. verwaltete Observability-Stacks

Wenn Sie ein anderes Agenten-Framework betreiben, sind die führenden Bolt-On-Tools LangSmith (LangChain-Ökosystem, verwaltet), Langfuse (Open Source, selbst hostbar), Arize Phoenix (Open Source, evaluationsfokussiert) und Helicone (Proxy-basiert, einfache Integration). Jedes erfordert Instrumentierungscode in Ihrem Agenten — LLM-Clients wrappen, Callback-Handler ergänzen, Trace-Exporter konfigurieren. Der Integrationsaufwand skaliert mit der Flottengröße.

OpenLegions Mesh sitzt designbedingt im Aufrufpfad jeder Agentenoperation — Credential-Vault, ACL-Gate, Kosten-Tracker und Trace-Recorder sind alle in der vertrauenswürdigen Zone kolokalisiert. Es gibt keinen Instrumentierungsschritt. Der Kompromiss: Sie adoptieren die OpenLegion-Runtime, nicht nur eine Observability-Schicht.

Siehe unseren KI-Agenten-Frameworks-Vergleich für die gesamte Landschaft oder die Vs.-LangGraph-Seite für einen Head-to-Head speziell zu Observability.

OpenLegions Standpunkt

Agenten-Observability ist das neue APM — und das KI-Ökosystem wiederholt jeden Fehler, den APM ein Jahrzehnt brauchte, um zu beheben. Telemetrie fragmentiert über anbieterspezifische SDKs. Preise skalieren mit Eventvolumen, sodass die aktivsten Flotten am meisten zahlen, um sich selbst zu beobachten. "Erweiterte" Funktionen wie Alerting und Retention sitzen hinter Enterprise-Stufen. OpenLegion nimmt die Gegenposition: Das Dashboard, Traces, der Kosten-Ledger und das Security-Event-Log gehören zur KI-Agenten-Plattform, nicht zum Upsell. Jeder Lauf zeichnet standardmäßig den vollständigen Trace auf, Sie hosten die Daten selbst, Sie besitzen die Retention, und Sie können bei Bedarf nach OpenTelemetry an Datadog oder Honeycomb exportieren.

Produktions-Agenten brauchen Produktions-Observability — eingebaut, nicht angeschraubt.

Loslegen Dokumentation lesen

Häufig gestellte Fragen

Was ist KI-Agenten-Observability?

KI-Agenten-Observability ist die strukturierte Aufzeichnung des Laufzeitverhaltens eines autonomen Agenten — Tool-Calls, LLM-Invokationen, Prompt-Versionen, Kosten und Sicherheitsereignisse — damit Engineers Fehler debuggen, Kosten optimieren und Entscheidungen auditieren können. Sie unterscheidet sich von traditionellem APM, weil der Kontrollfluss des Agenten von einem LLM entschieden wird, nicht von handgeschriebenem Code.

Wie unterscheidet sich KI-Agenten-Observability von LLM-Observability?

LLM-Observability erfasst einzelne Modellaufrufe — Prompt, Response, Latenz, Token-Kosten. KI-Agenten-Observability erfasst den vollständigen Ausführungsgraphen, den ein Agent zum Erledigen einer Aufgabe durchläuft, was typischerweise viele LLM-Aufrufe plus Tool-Calls, Handoffs an andere Agenten, Retries und Zustandsmutationen umfasst. LLM-Observability ist eine Teilmenge von Agenten-Observability.

Brauche ich ein separates Observability-Tool, wenn ich schon Datadog nutze?

Datadog und ähnliche APM-Tools handhaben Latenz, Fehler und Ressourcenverbrauch gut, verstehen aber nicht nativ LLM-Token-Kosten, Prompt-Versionierung oder Agenten-Trace-Semantik. Die meisten Teams kombinieren ein agentennatives Observability-Tool (Langfuse, Arize Phoenix, LangSmith) mit ihrem bestehenden APM oder adoptieren eine Runtime wie OpenLegion, die Telemetrie integriert mitliefert und OpenTelemetry an das ohnehin betriebene APM weiterleiten kann.

Was sollte ich für KI-Agenten-Kosten-Observability erfassen?

Erfassen Sie Token-Zählungen (Input und Output) pro Provider pro Agent pro Lauf, Dollar-Kosten berechnet gegen aktuelle Provider-Preise, tägliche und monatliche Rollups pro Agent sowie Budget-Cutoff-Ereignisse, wenn ein Agent wegen Überschreitens seines Budgets gestoppt wird. Ohne Pro-Agent-Budget-Caps sagt selbst exzellente Observability erst nach Eintreffen der Rechnung etwas über einen Runaway.

Welche Sicherheitsereignisse sollte KI-Agenten-Observability erfassen?

Mindestens: Prompt-Injection-Erkennung, ACL-Denies (ein Agent versuchte eine Operation außerhalb seiner Berechtigungsgrenze), SSRF-Blocks, Unicode- und Pfad-Traversal-Sanitisierungs-Treffer, Budget-Cutoffs und Credential-Vault-Zugriffslogs. Das sind die Ereignisse, nach denen Compliance-Reviewer fragen, und die Ereignisse, die einen aktiven Angriff gegen Ihre Agenten-Flotte signalisieren.

Wie vergleicht sich OpenLegions Observability mit LangSmith?

LangSmith ist ein verwalteter Observability-Dienst für das LangChain-Ökosystem — starkes Tracing, Evaluation und Prompt-Management. OpenLegions Dashboard kommt mit der Runtime selbst, ist standardmäßig selbst gehostet und erfasst dieselben Signale (Traces, Kosten, Prompts, Sicherheitsereignisse), ohne Instrumentierung im Agentencode zu verlangen. LangSmith integriert sich quer durch jedes Framework, das es adoptiert; OpenLegion-Observability funktioniert automatisch innerhalb der OpenLegion-Runtime.