KI-Agenten-Evaluierung: Benchmarks, Metriken und Tests
KI-Agenten-Evaluierung ist die Praxis, systematisch zu messen, ob Agenten Aufgaben korrekt abschließen, Tools sicher aufrufen und Kosten- sowie Latenzbudgets über mehrstufige Ausführungs-Traces hinweg einhalten — nicht nur bei einem einzelnen LLM-Aufruf. Einzelne-Turn-Benchmarks für Sprachmodelle verfehlen die kumulativen Fehlermodi agentischer Systeme: Eine Schritt-Erfolgsrate von 90 % degradiert bei fünf sequenziellen Tool-Aufrufen auf etwa 59 %.
KI-Agenten-Evaluierung ist eine Software-Testdisziplin, die autonome KI-Systeme über Dimensionen wie Aufgaben-Abschlussrate, Tool-Call-Korrektheit, Trajektorien-Längeneffizienz, Sicherheitsschranken-Einhaltung und Kosten pro abgeschlossener Aufgabe bewertet — mittels Benchmark-Suites, aufgezeichnetem Trace-Replay und LLM-as-Judge-Bewertern.
Warum Einzelne-Turn-LLM-Benchmarks bei Agenten versagen
Kumulative Fehler in mehrstufigen Tool-Ketten
Einzelne-Turn-Benchmarks wie MMLU messen One-Shot-Genauigkeit bei isolierten Fragen. Agenten funktionieren anders: Jeder Tool-Aufruf hängt vom vorherigen Ergebnis ab, und Fehler propagieren. Bei 90 % Zuverlässigkeit pro Schritt schließt eine fünfstufige Tool-Kette nur zu 59 % ohne Fehler ab (0,9⁵ ≈ 0,59). Bei 80 % Zuverlässigkeit pro Schritt sinkt das auf 33 %.
Diese kumulative Dynamik bedeutet, dass ein Agent, der bei Schritt-Level-Metriken akzeptabel aussieht, in der End-to-End-Produktion unzuverlässig sein kann. Die einzige aussagekräftige Messung ist die trajektorien-level Aufgabenerfüllung: Hat der Agent die vollständige Aufgabe korrekt abgeschlossen, oder ist er irgendwo in der Kette gescheitert?
Die Task-Pass@k-Adaption
Pass@k wurde in HumanEval (2021) eingeführt, um Code-Generierung zu messen: die Wahrscheinlichkeit, dass mindestens einer von k unabhängigen Generierungsversuchen alle Tests besteht. Für Agenten gilt dasselbe Prinzip auf Trajektorien-Ebene — task-pass@k misst, wie oft der vollständige Agenten-Lauf über k unabhängige Versuche korrekt abschließt.
Niedriges pass@1 mit hohem pass@3 ist ein spezifisches Fehlersignal: Der Agent kann die Aufgabe lösen, aber nicht zuverlässig. Dieses Muster deutet oft auf nicht-deterministische Tool-Auswahl, Kontextsensitivität für Prompt-Formulierung oder Race Conditions bei der Multi-Agenten-Koordination hin.
Was MMLU und HumanEval übersehen
MMLU testet Faktenwissen. HumanEval testet Code-Generierung auf Funktionsebene in Isolation. Keiner testet, was Produktionsagenten tatsächlich tun: mehrstufiges Reasoning mit echten Tool-Ausgaben, Fehlerwiederherstellung bei unerwarteten Tool-Ergebnissen, Kostenmanagement über lange Trajektorien und Verhalten unter adversariellen Eingaben.
OpenLegions Einschätzung: Die vier Eval-Dimensionen, die zählen
Agenten-Evaluierung, die bei der Aufgaben-Abschlussrate aufhört, übersieht die Fehlermodi, die in der Produktion wichtig sind. Vier Dimensionen sind für ein vollständiges Bild notwendig.
OWASP LLM08:2025 (Übermäßige Handlungsfreiheit) identifiziert unzureichende Tests des Agentenverhaltens als Ursache für unbeabsichtigte Nebeneffekte in agentischen Systemen — Agenten, die irreversible Aktionen durchführen, Berechtigungen eskalieren oder Daten außerhalb ihres Scope exfiltrieren.
openai/evals (18.604 GitHub-Sterne, MIT-nah) ist das größte Open-Source-LLM-Eval-Register. Es deckt modell-level Evaluierung ab, nicht agenten-level Trajektorien-Scoring. Teams, die nur gegen openai/evals benchmarken, messen das zugrunde liegende Modell, nicht das darauf aufgebaute Agentensystem.
LLM-as-Judge (popularisiert durch MT-Bench 2023) führt eine Positivitätsverzerrung von bis zu 20 % ein, wenn Richter- und Subjektmodell dieselben Basisgewichte teilen. Verwende für glaubwürdige Evaluierungsergebnisse eine andere Modellfamilie als Richter.
Tool-Call-Korrektheit und Nebeneffekt-Auditing
Zeichne jeden Tool-Call auf, den der Agent während Eval-Läufen macht: Tool-Name, Argumente, Rückgabewert und nachgelagerte Aktionen. Vergleiche mit einer goldenen Trajektorie. Abweichungen — zusätzliche Aufrufe, falsche Argumentwerte, Aufrufe in falscher Reihenfolge — deuten auf Reasoning-Fehler hin.
Kosten-pro-Aufgabe und Latenzbudgets
Ein Agent, der Aufgaben korrekt abschließt, aber 47 LLM-Aufrufe benötigt, um das zu tun, was ein gut gestalteter Agent in 8 erledigt, ist nicht produktionsreif. Messe verbrauchte Tokens und Wanduhrzeit pro abgeschlossener Aufgabe. Verfolge Durchschnitts- und Tail-Werte (P95, P99).
Sicherheits-Eval: Credential-Handling und Injection-Resistenz
Sicherheitsevaluierung verdient eine eigene Test-Suite. Enthält Testfälle, die verifizieren: Der Agent loggt, echobt oder übergibt keine Credentials in Tool-Call-Argumenten; der Agent folgt nicht Anweisungen, die in adversariellen Tool-Ausgaben eingebettet sind; der Agent nimmt keine irreversiblen Aktionen außerhalb seines designierten Aufgaben-Scope vor.
Benchmark-Suites für KI-Agenten
openai/evals: Modell-Level-Baseline (18.604 Sterne)
openai/evals (18.604 GitHub-Sterne, MIT-nah) ist das größte Open-Benchmark-Register für LLM-Evaluierung. Es bietet ein standardisiertes Format zum Definieren von Eval-Aufgaben, Ausführen von Modellen dagegen und Vergleichen von Ergebnissen. Für Agenten-Teams ist openai/evals als Modellqualitäts-Baseline nützlich — es sagt, wie leistungsfähig das zugrunde liegende LLM ist. Es testet nicht mehrstufige Tool-Nutzung oder agentische Aufgabenerfüllung.
trycua/cua: Computer-Use-Agent-Benchmarks (17.633 Sterne)
trycua/cua (17.633 GitHub-Sterne, MIT) bietet Sandbox-Umgebungen zur Evaluierung von Computer-Use-Agenten, die macOS-, Linux- und Windows-Desktops steuern. CUA-Benchmarks gehören zu den anspruchsvollsten im Open-Source-Eval-Bereich, weil sie Agenten in Live-Ausführungsumgebungen testen.
microsoft/promptflow: LLM-App-Qualitäts-Eval-Nodes (11.142 Sterne)
microsoft/promptflow (11.142 GitHub-Sterne, MIT) enthält eingebaute Eval-Nodes zum Bewerten von LLM-Anwendungsausgaben: Bodenständigkeit, Relevanz und Flüssigkeit. Diese Nodes integrieren sich in PromptFlow-Pipelines und können als CI-Checks auf jedem Commit laufen.
IBM/AssetOpsBench: 460+ Industrie-Szenarien-MCP-Evals (1.704 Sterne)
IBM/AssetOpsBench (1.704 GitHub-Sterne, Apache-2.0) bietet über 460 Industrie-Szenario-Evaluierungsfälle für Agenten, die über das Model Context Protocol operieren. Der Benchmark deckt vier Spezialistenagenten-Rollen über realistische IT-Betriebs-, Asset-Management- und Service-Desk-Szenarien ab.
Evaluierungsmethoden
Exact Match und programmatische Bewerter
Exact-Match-Bewerter vergleichen Agenten-Ausgaben mit einem vordefinierten erwarteten Wert. Sie sind deterministisch, schnell und frei von Richtermodell-Verzerrung — aber nur anwendbar, wenn die korrekte Ausgabe eindeutig spezifiziert ist.
LLM-as-Judge: Verzerrungsrisiken und Mitigation
LLM-as-Judge verwendet ein Sprachmodell, um Agenten-Ausgaben gegen eine Rubrik zu bewerten. Das Verzerrungsrisiko ist quantifiziert: Wenn Richter- und Subjektmodell dieselben Basisgewichte teilen, bläst eine Positivitätsverzerrung von bis zu 20 % die Evaluierungswerte auf.
Minderungsmaßnahmen: Verwende ein Richtermodell einer anderen Anbieter- oder Trainierungslinie; liefere explizite Scoring-Rubriken mit konkreten Bestehen/Fehlschlagen-Kriterien; kalibriere Richter-Scores gegen ein kleines Set menschlich-gekennzeichneter Beispiele.
Trajektorien-Scoring und Schritt-Level-Korrektheit
Trajektorien-Scoring bewertet die vollständige Aktionssequenz, die ein Agent zur Aufgabenerfüllung unternommen hat. Schritt-level Metriken: Tool-Auswahlgenauigkeit, Argument-Korrektheit, Trajektorien-Effizienz, Fehlerwiederherstellung, Terminierungsgenauigkeit.
Adversarielle Eingabe-Harnesses
Adversarielle Evals testen das Agentenverhalten unter Eingaben, die zur Auslösung unsicheren oder falschen Verhaltens entwickelt wurden: Prompt-Injection via Tool-Ausgaben, fehlerhafte Tool-Antworten, Scope-Grenztest, Credential-Expositions-Sonden.
Aufbau einer Agenten-Eval-Pipeline
Eval-Datensatz-Design für agentische Aufgaben
Ein guter Agenten-Eval-Datensatz enthält: Aufgaben-Eingaben, erwartete Tool-Call-Sequenz, Erfolgskriterien und Metadaten. Beginne mit 50-100 Aufgaben, die die Hauptanwendungsfälle abdecken. Erweitere den Datensatz durch Überprüfung von Produktions-Traces auf Fehlerfälle.
Trace-Replay und Regressionstests
Trace-Replay führt den Eval-Datensatz gegen den Agenten aus, erfasst vollständige Ausführungs-Traces und vergleicht mit goldenen Traces. Regressionstests kennzeichnen, wenn eine Aufgabe, die in einer früheren Agentenversion bestand, in der aktuellen scheitert.
CI-Integration: Deployments bei Eval-Regressionen blockieren
Integriere Agenten-Eval in die CI-Pipeline, um Deployments bei Qualitätsregressionen zu blockieren: Eval-Datensatz bei jedem PR ausführen, Aufgaben-Abschlussrate berechnen, gegen Baseline vergleichen, Deployment blockieren wenn Rate um mehr als 5 % absolut fällt oder ein Sicherheits-Eval-Testfall von Bestehen auf Fehlschlagen regressiert.
Eval-Tools-Vergleich
| Dimension | openai/evals | trycua/cua | promptflow eval | IBM/AssetOpsBench |
|---|---|---|---|---|
| Eval-Umfang | Einzelner-Turn-LLM | Computer-Use-Desktop | LLM-App-Qualität | Multi-Rollen-MCP-Agenten |
| Bewertungsmethode | Exact Match, LLM-Richter | Umgebungsausführung | LLM-Richter-Nodes | Programmatisch + LLM-Richter |
| Agenten-Trajektorien-Unterstützung | Nein | Ja (vollständige Desktop-Sessions) | Teilweise (Flow-Level) | Ja (4-Rollen-Workflows) |
| Sicherheits-/Safety-Tests | Nein | Nein | Nein | Teilweise |
| CI-Integration | Via CLI | Via SDK | Nativ in PromptFlow | Manuell |
| Lizenz | MIT-nah | MIT | MIT | Apache-2.0 |
| GitHub-Sterne | 18.604 | 17.633 | 11.142 | 1.704 |
Häufig gestellte Fragen
Was ist KI-Agenten-Evaluierung?
KI-Agenten-Evaluierung misst, ob Agenten mehrstufige Aufgaben korrekt abschließen, Tools mit den richtigen Argumenten aufrufen, Kosten- und Latenzbudgets einhalten und unsichere Verhaltensweisen wie Credential-Exfiltration oder Prompt-Injection vermeiden. Anders als Einzelne-Turn-LLM-Evals bewertet die Agenten-Eval vollständige Ausführungs-Trajektorien.
Welche Benchmarks werden zur Evaluierung von KI-Agenten verwendet?
Gängige Frameworks sind openai/evals (18.604 GitHub-Sterne, Modell-Level), trycua/cua (17.633 GitHub-Sterne, MIT, Computer-Use-Desktop-Aufgaben), microsoft/promptflow eval nodes (11.142 GitHub-Sterne, MIT, LLM-App-Qualität) und IBM/AssetOpsBench (1.704 GitHub-Sterne, Apache-2.0, 460+ Industrie-MCP-Szenarien).
Was ist LLM-as-Judge-Evaluierung und welche Risiken hat sie?
LLM-as-Judge verwendet ein separates Sprachmodell, um Agenten-Ausgaben gegen eine Rubrik zu bewerten. Das Schlüsselrisiko: Wenn Richter- und Subjektmodell dieselben Basisgewichte teilen, bläst eine Positivitätsverzerrung von bis zu 20 % die Werte auf. Verwende eine andere Modellfamilie als Richter für glaubwürdige Ergebnisse.
Wie funktioniert pass@k bei der Agenten-Evaluierung?
Pass@k misst die Wahrscheinlichkeit, dass mindestens einer von k unabhängigen Agenten-Läufen eine Aufgabe korrekt abschließt. Niedriges pass@1 mit hohem pass@3 signalisiert nicht-deterministische Ausführung, die vor dem Produktions-Deployment untersucht werden sollte.
Wie evaluiert man Agenten-Sicherheit und Credential-Handling?
Sicherheits-Evals testen, ob Agenten Credentials in Tool-Call-Argumenten preisgeben, auf adversarielle Prompt-Injection in Tool-Ausgaben reagieren oder irreversible Nebeneffekte außerhalb ihres Scope verursachen. OWASP LLM08:2025 (Übermäßige Handlungsfreiheit) dokumentiert dieses Fehlermuster als Top-10-LLM-Schwachstelle.
Wie integriert man Agenten-Evaluierung in CI/CD?
Zeichne einen goldenen Eval-Datensatz mit Aufgaben-Eingaben, erwarteten Tool-Call-Sequenzen und Endausgaben auf. Spiele bei jedem Commit den Datensatz gegen den aktualisierten Agenten ab und vergleiche Trajektorien-Scores mit der vorherigen Baseline. Blockiere Deployments, wenn die Aufgaben-Abschlussrate um mehr als 5 % absolut fällt oder ein Sicherheitstest regressiert.
Wie unterstützt OpenLegion die Agenten-Evaluierung?
OpenLegions Agenten-Mesh emittiert strukturierte Tool-Call-Traces, die gegen einen Eval-Harness wiederholt werden können. Der Credential-Vault stellt sicher, dass Eval-Läufe isolierte Credentials verwenden — ein fehlgeschlagener Sicherheitstest kann keine echten API-Tokens exfiltrieren. Herzschlag-gesteuerte Eval-Agenten können Regressions-Suites nach Zeitplan ausführen.
Evaluiere deine Agenten in einem sicheren Mesh
Zuverlässige Agenten erfordern Eval-Infrastruktur, die die vollständige Ausführungs-Trajektorie testet. Das kumulative Fehlerproblem ist real: Eine Schritt-Zuverlässigkeitsrate von 90 % bedeutet, dass ein fünfstufiger Agent 41 % der Läufe fehlschlägt. Das Erkennen dieser Degradation vor der Produktion erfordert trajektorien-level Eval, adversarielle Eingabetests und CI-gesteuerte Regressionsprüfungen.
Beginne mit der Erstellung evaluierter Agenten auf OpenLegion