In agentischen Systemen ist „Failure Handling“ kein Afterthought, sondern Teil der Architektur. Ein Agent, der Tools ausführt, wird zwangsläufig mit Timeouts, Netzwerkfehlern, Rate Limits, invaliden Inputs, partial failures und widersprüchlichen Tool-Outputs konfrontiert. Im Exam zählt vor allem, dass du Failure Handling systematisch denken kannst: Erkennen → Klassifizieren → Reagieren → Validieren → Dokumentieren.
Retries sind sinnvoll, wenn der Fehler transient ist (z. B. 502, Netzwerk-Jitter, kurzzeitige Rate-Limits). Sie sind gefährlich bei deterministischen Fehlern (z. B. 400 Bad Request, Schema verletzt, fehlende Berechtigung), weil du nur Kosten und Latenz erhöhst.
Praxisregeln:
Fallback bedeutet: Wenn der bevorzugte Pfad scheitert, nutzt du einen alternativen Pfad mit akzeptablen Trade-offs. Das kann sein:
Wichtig ist, Fallbacks zu designen, ohne „Silent Failure“ zu erzeugen. Der Agent sollte explizit markieren:
Ein gutes Pattern ist: Primary → Secondary → Safe Stop. Wenn auch Secondary nicht sicher ist, ist „Stop + Human“ besser als kreatives Weiterwürfeln.
Human Handoff ist kein Eingeständnis von Schwäche, sondern ein Sicherheits- und Qualitätsmechanismus. Du nutzt ihn, wenn:
Gute Übergabe heißt: der Agent liefert entscheidungsreife Informationen.
1. Retry nur bei transienten Fehlern und nur mit Backoff, Budget und (idealerweise) Idempotency.
2. Fallbacks müssen transparent sein: chosen path + trade-offs klar kommunizieren.
3. Human Handoff ist ein Pattern: kompakter Status, Diagnose, Optionen – statt „geht nicht“.
Du orchestrierst einen Agenten, der ein externes Ticket-System per Tool-Aufruf aktualisiert. Der Tool-Call timed out, du weißt nicht, ob das Update durchging. Wie gestaltest du Retries und was ist dein sicherster nächster Schritt?
Du brauchst Idempotenz (z. B. Idempotency Key oder vorher/nachher Zustand prüfen), sonst sind Retries riskant. Der sicherste Schritt ist: Status verifizieren (Ticket erneut lesen/abgleichen) und erst dann retryen – mit begrenztem Retry-Budget und Backoff. Wenn Verifikation nicht möglich ist, stoppe und mache einen Human Handoff mit klarer Lage („unklar ob Update applied“).