Merlin Mechler
Alle Artikel
13 Min Lesezeit

LLM API Integration Patterns — REST, Streaming, Function Calling

REST, Streaming und Function Calling im Vergleich. Wie du LLMs zuverlässig in bestehende Systeme integrierst — mit Architektur-Patterns, Fehlerbehandlung und dem zentralen LLM-Gateway-Konzept.

LLMAPIArchitekturAgentic WorkflowsKI-Infrastruktur

Dein erster LLM-API-Call hat 200ms gedauert und eine perfekte Antwort geliefert. In der Demo. Mit einem User. In Produktion, mit 500 gleichzeitigen Anfragen, sieht die Welt anders aus: Timeouts nach 30 Sekunden, Rate Limits bei 60 RPM, inkonsistente Antwortformate und ein User, der auf einen leeren Bildschirm starrt, weil du Streaming nicht implementiert hast.

Die 3 Integrationsmuster

Pattern 1: Synchrones REST (Request-Response)

Sende eine Anfrage, warte auf die vollständige Antwort.

Wann verwenden: Backend-Prozesse ohne User-Interaktion (Batch-Verarbeitung), kurze Antworten (Klassifikation, Extraktion), wenn die gesamte Antwort benötigt wird.

Vorteile: Einfachste Implementierung, einfaches Error Handling (HTTP Status Codes), einfaches Caching.

Nachteile: User wartet auf vollständige Generierung (bei langen Antworten: 5–30 Sekunden), Timeout-Risiko.

Pattern 2: Streaming (Server-Sent Events)

Die Antwort wird Token für Token gestreamt, während sie generiert wird.

Wann verwenden: Chat-Interfaces, lange Antworten, immer wenn ein Mensch auf die Antwort wartet.

Vorteile: Time-to-First-Token typischerweise unter 500ms, deutlich bessere UX, kein Timeout-Risiko.

Best Practices: Token-Buffer für wortweise statt zeichenweise Anzeige. Kopie des gesamten Streams für Logging halten. Mid-Stream-Fehler: bisherige Antwort + Fehlermeldung zeigen.

Pattern 3: Function Calling (Tool Use)

Das LLM entscheidet, welche Funktionen es aufrufen muss, und liefert strukturierte Parameter zurück.

Wann verwenden: Agentic Workflows, strukturierte Datenextraktion (JSON statt Freitext), Multi-Step-Prozesse.

Sicherheits-Regeln: NIEMALS das LLM direkte Datenbankzugriffe oder System-Commands ausführen lassen. Jeder Tool Call muss validiert und autorisiert werden. Maximale Anzahl an Tool Calls pro Anfrage definieren.

Enterprise-Architektur: Der LLM Gateway

In Produktion sollte kein Service direkt mit der LLM-API kommunizieren. Stattdessen: Ein zentraler LLM Gateway.

Was der Gateway macht:

  1. Routing: Anfragen an den richtigen Provider/Modell weiterleiten
  2. Authentication: API-Key-Management zentral statt in jedem Service
  3. Rate Limiting: Zentrale Kontrolle über Request-Volumen
  4. Caching: Identische Anfragen aus dem Cache beantworten
  5. Fallback: Bei Provider-Ausfall automatisch auf Alternative wechseln
  6. Cost Tracking: Token-Verbrauch pro Service/Team/User tracken

Open-Source-Optionen: LiteLLM, Portkey, Ludwig Gateway

Retry-Strategien

FehlerHTTP CodeStrategieMax Retries
Rate Limit429Exponential Backoff (1s, 2s, 4s, 8s)5
Server Error500/503Retry nach 2s, dann Fallback-Provider3
Timeout408/504Retry mit kürzerer max_tokens2
Context Length400Input kürzen, dann Retry1

Circuit Breaker Pattern: Wenn ein Provider mehr als 50% der Anfragen in den letzten 60 Sekunden fehlschlägt: Circuit öffnen, alle Anfragen an Fallback-Provider routen.

Caching: Bis zu 70% Kostenreduktion

Semantic Caching: Statt exakter String-Matches, nutze Embedding-basiertes Caching. Berechne den Embedding-Vektor der Anfrage, suche im Cache nach semantisch ähnlichen Anfragen (Cosine Similarity > 0.95). Ergebnis: 30–70% weniger API-Calls bei typischen Support- und FAQ-Workloads.

Multi-Provider-Strategie

Use CasePrimaryFallbackKriterium
Chat (komplex)GPT-4o / Claude 3.5Gemini ProQualität
Chat (einfach)GPT-4o-miniClaude HaikuKosten
KlassifikationClaude HaikuGPT-4o-miniLatenz
Code-GenerierungClaude 3.5 SonnetGPT-4oQualität

Die LLM-API-Integration ist nicht der spannendste Teil eines KI-Projekts. Aber sie ist der Teil, der darüber entscheidet, ob dein System in Produktion überlebt.

Newsletter

KI im Sales — ohne Buzzwords

Praxisartikel zu Automatisierung, Agentic Workflows und operativen Systemen. Kein Content-Marketing. Erscheint wenn es etwas zu sagen gibt.

Nächster Schritt

Wenn du willst, dass Deals wieder sauber Richtung Entscheidung laufen

Dann starten wir mit einem POC Sprint und machen eure Pipeline in 10 Tagen führbar — inklusive Templates, Playbooks und einem Rhythmus, der im Alltag hält.