LLM API Integration Patterns — REST, Streaming, Function Calling
REST, Streaming und Function Calling im Vergleich. Wie du LLMs zuverlässig in bestehende Systeme integrierst — mit Architektur-Patterns, Fehlerbehandlung und dem zentralen LLM-Gateway-Konzept.
Dein erster LLM-API-Call hat 200ms gedauert und eine perfekte Antwort geliefert. In der Demo. Mit einem User. In Produktion, mit 500 gleichzeitigen Anfragen, sieht die Welt anders aus: Timeouts nach 30 Sekunden, Rate Limits bei 60 RPM, inkonsistente Antwortformate und ein User, der auf einen leeren Bildschirm starrt, weil du Streaming nicht implementiert hast.
Die 3 Integrationsmuster
Pattern 1: Synchrones REST (Request-Response)
Sende eine Anfrage, warte auf die vollständige Antwort.
Wann verwenden: Backend-Prozesse ohne User-Interaktion (Batch-Verarbeitung), kurze Antworten (Klassifikation, Extraktion), wenn die gesamte Antwort benötigt wird.
Vorteile: Einfachste Implementierung, einfaches Error Handling (HTTP Status Codes), einfaches Caching.
Nachteile: User wartet auf vollständige Generierung (bei langen Antworten: 5–30 Sekunden), Timeout-Risiko.
Pattern 2: Streaming (Server-Sent Events)
Die Antwort wird Token für Token gestreamt, während sie generiert wird.
Wann verwenden: Chat-Interfaces, lange Antworten, immer wenn ein Mensch auf die Antwort wartet.
Vorteile: Time-to-First-Token typischerweise unter 500ms, deutlich bessere UX, kein Timeout-Risiko.
Best Practices: Token-Buffer für wortweise statt zeichenweise Anzeige. Kopie des gesamten Streams für Logging halten. Mid-Stream-Fehler: bisherige Antwort + Fehlermeldung zeigen.
Pattern 3: Function Calling (Tool Use)
Das LLM entscheidet, welche Funktionen es aufrufen muss, und liefert strukturierte Parameter zurück.
Wann verwenden: Agentic Workflows, strukturierte Datenextraktion (JSON statt Freitext), Multi-Step-Prozesse.
Sicherheits-Regeln: NIEMALS das LLM direkte Datenbankzugriffe oder System-Commands ausführen lassen. Jeder Tool Call muss validiert und autorisiert werden. Maximale Anzahl an Tool Calls pro Anfrage definieren.
Enterprise-Architektur: Der LLM Gateway
In Produktion sollte kein Service direkt mit der LLM-API kommunizieren. Stattdessen: Ein zentraler LLM Gateway.
Was der Gateway macht:
- Routing: Anfragen an den richtigen Provider/Modell weiterleiten
- Authentication: API-Key-Management zentral statt in jedem Service
- Rate Limiting: Zentrale Kontrolle über Request-Volumen
- Caching: Identische Anfragen aus dem Cache beantworten
- Fallback: Bei Provider-Ausfall automatisch auf Alternative wechseln
- Cost Tracking: Token-Verbrauch pro Service/Team/User tracken
Open-Source-Optionen: LiteLLM, Portkey, Ludwig Gateway
Retry-Strategien
| Fehler | HTTP Code | Strategie | Max Retries |
|---|---|---|---|
| Rate Limit | 429 | Exponential Backoff (1s, 2s, 4s, 8s) | 5 |
| Server Error | 500/503 | Retry nach 2s, dann Fallback-Provider | 3 |
| Timeout | 408/504 | Retry mit kürzerer max_tokens | 2 |
| Context Length | 400 | Input kürzen, dann Retry | 1 |
Circuit Breaker Pattern: Wenn ein Provider mehr als 50% der Anfragen in den letzten 60 Sekunden fehlschlägt: Circuit öffnen, alle Anfragen an Fallback-Provider routen.
Caching: Bis zu 70% Kostenreduktion
Semantic Caching: Statt exakter String-Matches, nutze Embedding-basiertes Caching. Berechne den Embedding-Vektor der Anfrage, suche im Cache nach semantisch ähnlichen Anfragen (Cosine Similarity > 0.95). Ergebnis: 30–70% weniger API-Calls bei typischen Support- und FAQ-Workloads.
Multi-Provider-Strategie
| Use Case | Primary | Fallback | Kriterium |
|---|---|---|---|
| Chat (komplex) | GPT-4o / Claude 3.5 | Gemini Pro | Qualität |
| Chat (einfach) | GPT-4o-mini | Claude Haiku | Kosten |
| Klassifikation | Claude Haiku | GPT-4o-mini | Latenz |
| Code-Generierung | Claude 3.5 Sonnet | GPT-4o | Qualität |
Die LLM-API-Integration ist nicht der spannendste Teil eines KI-Projekts. Aber sie ist der Teil, der darüber entscheidet, ob dein System in Produktion überlebt.
Verwandte Artikel
Newsletter
KI im Sales — ohne Buzzwords
Praxisartikel zu Automatisierung, Agentic Workflows und operativen Systemen. Kein Content-Marketing. Erscheint wenn es etwas zu sagen gibt.
Jede Woche ohne System ist eine Woche Vorsprung für deine Konkurrenz.
In 5 Werktagen weißt du, wo dein Team Zeit verliert — und was wir dagegen tun. Max. 2 Stunden dein Zeitaufwand. Kein Foliensatz, kein Audit der in der Schublade landet.
- Keep / Kill / Upgrade: welche Tools bleiben, welche weg können — konkret begründet
- 3 priorisierte Use Cases mit klarer 90-Tage-Roadmap
- Board-ready Report (8–12 Seiten) — heute noch zeigbar
- Klarheits-Garantie: kein Ergebnis, kein Geld
Sie suchen jemanden, der KI-Adoption und operativen Kontext zusammenbringt.
Ich bringe Business-Kontext und technische Umsetzung zusammen: GTM-Realität aus 8+ Jahren in B2B Sales und die Tiefe für AI Adoption, Use-Case-Priorisierung und Workflow-Integration — kein Theoretiker, sondern jemand der weiß, wie Unternehmen wirklich funktionieren.
- KI-Produktivität & AI Adoption: Non-Tech-Teams auf Senior-Level-Output bringen — nicht theoretisch, sondern hands-on
- 8+ Jahre B2B Sales, Growth & Operations — ich kenne operative Probleme von innen
- Python, SQL und technische Umsetzung — production-ready, nicht Demo
- Workflow Automation & Applied AI: von der Diagnose bis zum laufenden System
- Produktivitätsgenie: Diagnose first, dann bauen — kein Flickwerk, keine KI-Trends-Präsentation