Merlin Mechler
Alle Artikel
20 Min Lesezeit

Multi-Agent Orchestration für Mittelstand — Patterns, Frameworks & Pitfalls

CrewAI vs LangGraph vs AutoGen im direkten Vergleich. 5 Orchestrierungs-Patterns, Structured Handoff Protocols, Fehlerbehandlung und DSGVO-Compliance für Multi-Agent-Systeme im DACH-Mittelstand.

Agentic WorkflowsAutomatisierungEnterprise LLMMittelstand

Meta-Description

Multi-Agent Orchestration für den Mittelstand: CrewAI vs LangGraph vs AutoGen im direkten Vergleich. Architektur-Patterns, Kommunikationsprotokolle, Fehlerbehandlung und ein konkreter Implementierungsleitfaden für DACH-Unternehmen.


Ein einzelner LLM-Agent löst eine Aufgabe. Mehrere Agenten lösen komplexe Geschäftsprozesse. Der Unterschied: Ein Agent beantwortet eine Frage. Ein Multi-Agent-System führt einen gesamten Workflow autonom aus — von der Datenrecherche über die Analyse bis zur Entscheidungsvorlage.

Das Problem: Die meisten Multi-Agent-Implementierungen im Mittelstand scheitern nicht an der Technologie, sondern an der Orchestrierung.


1. Wann Multi-Agent — und wann nicht

Wann ein einzelner Agent reicht

  • Einfache Q&A über eine Wissensdatenbank
  • Datenextraktion aus strukturierten Dokumenten
  • Klassifikations-Tasks (Sentiment, Kategorisierung)
  • Einfache Workflows mit linearem Ablauf

Wann Multi-Agent notwendig wird

KriteriumSingle AgentMulti-Agent
Aufgabenkomplexität1–3 Schritte5+ Schritte mit Verzweigungen
SpezialisierungGeneralist reichtUnterschiedliche Expertise nötig
ParallelisierungSequenziell OKTeilaufgaben parallel möglich
Context WindowAlles passt reinZu viel Kontext für einen Agent

Faustregel: Wenn dein System Prompt über 2.000 Tokens wächst und der Agent trotzdem Schritte vergisst — dann ist es Zeit für Multi-Agent.


2. Die 5 Orchestrierungs-Patterns

Pattern 1: Sequential Pipeline

Agenten arbeiten nacheinander: [Researcher] → [Analyst] → [Writer] → [Reviewer]

Einsatz: Content-Erstellung, Datenverarbeitung, Report-Generierung

Vorteil: Einfach zu debuggen, klare Verantwortlichkeiten

Nachteil: Langsam (keine Parallelisierung), ein Fehler blockiert alles

Pattern 2: Parallel Fan-Out / Fan-In

Coordinator verteilt Teilaufgaben parallel an Agenten, Synthesizer fasst zusammen.

Einsatz: Research-Tasks, Multi-Source-Analyse, Due Diligence

Vorteil: Schnell (parallel), skaliert mit Teilaufgaben

Pattern 3: Hierarchical Delegation

Manager-Agent delegiert an Spezialisten und entscheidet basierend auf deren Output.

Einsatz: Komplexe Entscheidungsprozesse, IT-Helpdesk, automatisierte Analyse

Vorteil: Flexibel, Manager kann dynamisch entscheiden welchen Agenten er braucht

Pattern 4: Debate / Adversarial

Zwei oder mehr Agenten argumentieren aus verschiedenen Perspektiven. Ein Judge-Agent entscheidet.

Einsatz: Risikoanalyse, Vertragsprüfung, strategische Entscheidungen

Vorteil: Höhere Qualität durch adversariale Prüfung

Nachteil: Teuer (3× LLM-Calls minimum), langsam

Pattern 5: Autonomous Swarm

Agenten agieren selbstständig, kommunizieren über einen Shared State.

Einsatz: Monitoring-Systeme, Event-Driven-Workflows

Vorteil: Hochflexibel, skaliert dynamisch

Nachteil: Schwer zu debuggen, erfordert robuste Guardrails

Pattern-Auswahl nach Use Case

Use CaseEmpfohlenes Pattern
Report-GenerierungSequential Pipeline
Markt-ResearchParallel Fan-Out
IT-Helpdesk L2/L3Hierarchical Delegation
VertragsprüfungDebate / Adversarial
Echtzeit-MonitoringAutonomous Swarm

3. Framework-Vergleich: CrewAI vs LangGraph vs AutoGen

CrewAI: Das Team-Metapher-Framework

Konzept: Agenten sind "Crew Members" mit definierten Rollen, Zielen und Backstories.

Stärken: Intuitive API, eingebaute Delegation, gute Defaults, aktive Community.

Schwächen: Weniger Kontrolle über den Execution Flow, keine native State Machine.

Ideal für: Teams, die schnell starten wollen. Sequential und einfache hierarchische Workflows.

LangGraph: Die State-Machine für Agenten

Konzept: Agenten als Nodes in einem gerichteten Graphen. Volle Kontrolle über den Execution Flow.

Stärken: Explizite State Machine, Cycles und Loops nativ, Checkpointing und Human-in-the-Loop eingebaut, Debugging durch Graph-Visualisierung.

Schwächen: Steilere Lernkurve, mehr Boilerplate.

Ideal für: Komplexe Workflows mit Bedingungen, Loops und Compliance-Anforderungen.

AutoGen: Das Conversation-Framework

Konzept: Agenten kommunizieren über Nachrichten (Chat-Paradigma).

Stärken: Natürliches Konversations-Paradigma, Code-Execution eingebaut, gute Azure-Integration.

Schwächen: Weniger deterministisch, Debugging bei langen Konversationen schwierig.

Ideal für: Explorative Tasks, Code-Generation mit Ausführung.

KriteriumCrewAILangGraphAutoGen
LernkurveFlachSteilMittel
Flow-KontrolleMittelSehr hochNiedrig
DebuggingMittelSehr gutSchwierig
Production-ReadinessMittelHochMittel
Loops/CyclesBegrenztNativChat-basiert
Human-in-the-LoopPluginEingebautEingebaut

Empfehlung für den Mittelstand:

  • Einstieg/PoC: CrewAI (schnellster Start)
  • Production: LangGraph (volle Kontrolle, Checkpointing)
  • Microsoft-Stack: AutoGen (Azure-Integration)

4. Kommunikationsprotokolle zwischen Agenten

Das zentrale Problem

Agenten kommunizieren über natürliche Sprache. Das erzeugt:

  1. Informationsverlust: Agent B ignoriert relevante Details aus Agent A's Output
  2. Halluzinierte Übergaben: Agent B erfindet Informationen, die Agent A nie geliefert hat
  3. Format-Mismatch: Agent A liefert Prosa, Agent B erwartet JSON

Lösung: Structured Handoff Protocol

Definiere für jede Agent-zu-Agent-Übergabe ein Pydantic-Schema mit Pflichtfeldern (query, sources_found, key_findings, confidence, data_gaps). Das erzwingt strukturierte Kommunikation, verhindert Informationsverlust und macht Debugging trivial.

Message Bus vs Direct Handoff

AnsatzVorteileNachteileEinsatz
Direct HandoffEinfach, schnellTight Coupling2–3 Agenten
Message Queue (Redis/RabbitMQ)Entkoppelt, skalierbarInfrastruktur-Overhead4+ Agenten
Shared State (Blackboard)FlexibelConsistency-ProblemeSwarm-Patterns

5. Fehlerbehandlung — Wo Multi-Agent-Systeme wirklich scheitern

Die 5 häufigsten Failure Modes

Failure 1: Endlosschleifen

Agent A fragt Agent B. Agent B fragt Agent A.

Lösung: Max-Iteration-Limit pro Agent (typisch: 3–5 Iterationen).

Failure 2: Quality Degradation

Jeder Agent fügt Rauschen hinzu. Nach 5 Agenten ist der Output unbrauchbar.

Lösung: Quality Gates zwischen Agenten. Nächster Agent startet nur über Threshold.

Failure 3: Context Window Overflow

Akkumulierter Kontext überschreitet das Context Window.

Lösung: Summarization-Agent zwischen Schritten.

Failure 4: Inconsistent Personas

Agenten widersprechen sich.

Lösung: Shared Context Document, das alle Agenten als Basis erhalten.

Failure 5: Silent Failures

Falsches Ergebnis mit hohem "Confidence Score".

Lösung: Adversarial Checks. Validation-Agent prüft stichprobenartig Zwischenergebnisse.

Robustness-Checklist

  • Max-Iteration-Limits für alle Agenten gesetzt?
  • Quality Gates zwischen allen Übergaben?
  • Timeout pro Agent (typisch: 30–60 Sekunden)?
  • Fallback-Strategie wenn ein Agent versagt?
  • Logging aller Handoffs für Post-Mortem-Analyse?
  • Cost-Ceiling pro Workflow-Durchlauf?
  • Human-Escalation-Trigger definiert?

6. Memory & State Management

Die drei Memory-Schichten

SchichtScopePersistenzBeispiel
Working MemoryEinzelner Agent, aktueller TaskFlüchtigChat-History im aktuellen Call
Shared StateAlle Agenten, aktueller WorkflowWorkflow-DauerZwischenergebnisse, Handoff-Daten
Long-Term MemoryAlle Agenten, alle WorkflowsPermanentKundendaten, gelernte Präferenzen

7. Cost Engineering für Multi-Agent-Systeme

Model Tiering pro Agent

Agent-RolleEmpfohlenes ModellBegründung
Router / ClassifierGPT-4o-miniEinfache Entscheidung
ResearcherGPT-4oBraucht gutes Reasoning
WriterGPT-4o / Claude SonnetQualität im Output
ValidatorGPT-4o-miniJa/Nein-Entscheidungen
SummarizerGPT-4o-miniKompression, nicht Kreation

Ersparnis: 40–60% gegenüber "alles auf GPT-4o".

Lazy Evaluation: Aktiviere Agenten nur bei Bedarf (z.B. Reviewer nur wenn Confidence Score < 0,85).

Kosten-Benchmarks

Workflow-TypAgentenKosten mit Tiering
Report-Generierung30,12–0,20 EUR/Durchlauf
Lead Research40,20–0,40 EUR/Durchlauf
Vertragsprüfung50,40–0,80 EUR/Durchlauf
Full Sales Workflow60,60–1,20 EUR/Durchlauf

8. DACH-spezifische Considerations

Sprache: System-Prompts auf Deutsch für bessere Output-Qualität bei deutschen Daten.

DSGVO in Multi-Agent-Systemen:

  • Datenminimierung: Nur relevante Daten an jeden Agent (Scope-basierte Handoffs)
  • PII nicht in Long-Term Memory speichern
  • Audit-Log pro Handoff für Dokumentationspflicht
  • TTL + explizite Löschroutine für Kundendaten

Hosting: Azure OpenAI mit EU-Region für sensible Daten. Anthropic API hat derzeit kein EU-Datacenter — Auftragsverarbeitungsvertrag prüfen.


9. Implementation Roadmap

Phase 1: PoC (Woche 1–2)

  • Einen Use Case identifizieren (idealerweise interner Prozess)
  • CrewAI für schnellen Prototyp, 2–3 Agenten, Sequential Pipeline
  • Manuelles Testing mit 10–20 Beispielen

Phase 2: Hardening (Woche 3–4)

  • Structured Handoff Protocol implementieren
  • Quality Gates, Max-Iteration-Limits und Timeouts
  • Logging aller Agent-Interaktionen

Phase 3: Production (Woche 5–8)

  • Migration zu LangGraph für Production-Kontrolle
  • Model Tiering implementieren
  • Monitoring-Dashboard (Kosten, Qualität, Latenz pro Agent)

Phase 4: Optimization (Woche 9–12)

  • Workflow-Level Caching
  • Lazy Evaluation für optionale Agenten
  • A/B-Testing verschiedener Agent-Konfigurationen

10. Die 7 Regeln für Multi-Agent im Mittelstand

  1. Starte mit Single-Agent. Multi-Agent nur wenn Single-Agent nachweislich nicht reicht.
  2. Wähle das einfachste Pattern, das funktioniert.
  3. Structured Handoffs statt Free-Text-Übergaben.
  4. Model Tiering ab Tag 1.
  5. Max-Iteration-Limits sind nicht optional.
  6. Logging ist die wichtigste Infrastruktur.
  7. Human-in-the-Loop für alles, was extern sichtbar wird.

Weiterlesen

Newsletter

KI im Sales — ohne Buzzwords

Praxisartikel zu Automatisierung, Agentic Workflows und operativen Systemen. Kein Content-Marketing. Erscheint wenn es etwas zu sagen gibt.

Nächster Schritt

Wenn du willst, dass Deals wieder sauber Richtung Entscheidung laufen

Dann starten wir mit einem POC Sprint und machen eure Pipeline in 10 Tagen führbar — inklusive Templates, Playbooks und einem Rhythmus, der im Alltag hält.