Merlin Mechler
Alle Artikel
10 Min Lesezeit

Kleine Modelle schlagen Große — Wann Llama 3 besser als GPT-4 ist

Ein fine-tuned Phi-3-mini (3,8B Parameter) schlug GPT-4o bei Versicherungsklassifikation mit 94% vs. 80% Genauigkeit — für 8% der Kosten. Wann kleine Modelle gewinnen und wie das Portfolio-Modell funktioniert.

Agentic WorkflowsAutomatisierungProduktivitätKI im Sales

Definition

Kleine Modelle schlagen Große — Wann Llama 3 besser als GPT-4 ist: Small Language Models (SLMs, 1–14 Milliarden Parameter) sind auf Effizienz trainierte KI-Modelle, die bei eng definierten Tasks nach Fine-Tuning General-Purpose-LLMs in Genauigkeit, Latenz und Kosteneffizienz übertreffen — und dabei on-premise deploybar sind.

Marcus, CTO eines Münchner Insurtechs, hatte ein Problem. Sein KI-Schadenklassifikator auf Basis GPT-4o lieferte 80% Genauigkeit. Die monatliche Rechnung: 23.000 EUR für 150.000 Klassifikationen.

Sein Team machte ein Experiment: Phi-3-mini (3,8 Milliarden Parameter, vs. GPT-4os geschätzte 200+ Milliarden). Fine-tuned auf 8.000 gelabelten Schadensfällen.

Das Ergebnis:

  • Genauigkeit: 94% (vs. 80% bei GPT-4o)
  • Kosten: 1.800 EUR/Monat (vs. 23.000 EUR)
  • Latenz: 45ms (vs. 850ms)

Ein Modell, das 50x kleiner ist, lieferte bessere Ergebnisse für 8% der Kosten. Das ist kein Ausreißer — das ist ein Muster.


Wann kleine Modelle große schlagen

SLM gewinnt wenn:

  • Der Task eng definiert ist (Klassifikation, Extraktion, FAQ-Beantwortung)
  • Hohe Volumina anfallen (ab ~10.000 Anfragen/Tag)
  • Latenz kritisch ist (SLMs: 20–80ms vs. LLMs: 500–1.500ms)
  • Datenhoheit nicht verhandelbar ist (On-Premise deployment)
  • Konsistenz wichtiger ist als Kreativität

LLM gewinnt wenn:

  • Der Task offen und komplex ist (Multi-Step-Reasoning, kreative Texte)
  • Breites Weltwissen gebraucht wird
  • Wenige Daten für Fine-Tuning vorhanden sind
  • Anforderungen sich häufig ändern

Das Portfolio-Modell: Der intelligente Router

Anfrage rein
    |
[Komplexitäts-Classifier]
    |
    +-- Einfach → SLM (Fine-tuned)         ~0,10 EUR/1000
    |
    +-- Mittel → Llama 3.3 70B             ~0,50 EUR/1000
    |
    +-- Komplex → GPT-4o / Claude 3.5      ~5,00 EUR/1000

Ergebnis: 70–80% der Anfragen beim SLM, 5–10% beim LLM. Gesamtkosten sinken um 60–80%.


Realer Case: Kundenservice-Automatisierung

Ticket-TypAnteilModellGenauigkeitKosten/Ticket
WISMO ("Wo ist meine Bestellung?")42%Mistral 7B Fine-tuned97%0,002 EUR
Retouren23%Phi-3 Fine-tuned94%0,003 EUR
Produktberatung20%Llama 3.3 70B88%0,012 EUR
Komplexe Beschwerden12%Claude 3.5 Sonnet91%0,045 EUR

Vorher (alles GPT-4o): 8.100 EUR/Monat

Nachher (Portfolio): 1.350 EUR/Monat

Einsparung: 83% — bei gestiegener Genauigkeit


Modell-Vergleich 2026

ModellParameterDACH-EignungKosten (API)
GPT-4o~200B+Mittel (US-Server)~2,50–10 USD/1M Tokens
Llama 3.3 70B70BHoch (On-Premise möglich)~0,23–0,90 USD/1M Tokens
Mistral 7B7BSehr hoch (EU-Firma, Open Source)~0,05–0,25 USD/1M Tokens
Phi-414BSehr hoch (lokal deploybar)~0,07–0,15 USD/1M Tokens

Mistral für den DACH-Raum: Französisches Unternehmen, Open Source, DSGVO-konform deploybar, überdurchschnittliche Sprachunterstützung für Deutsch.


Fine-Tuning: So wird ein kleines Modell zum Spezialisten

Was du brauchst:

  • 500–2.000 gelabelte Trainingsbeispiele
  • 1x NVIDIA A10G (24GB VRAM) — reicht für 7B Modelle
  • Cloud-Kosten Training: ~50–200 EUR einmalig
  • Methode: QLoRA — reduziert VRAM-Bedarf um 90%+

ROI Fine-Tuning vs. API (100K Queries/Monat):

GPT-4o APIPhi-3 Fine-tuned
Setup-Kosten0 EUR5.000–15.000 EUR
Monatliche Kosten15.000–30.000 EUR2.000–5.000 EUR
Break-EvenMonat 1–2
Jährliche Einsparung120.000–280.000 EUR

Newsletter

KI im Sales — ohne Buzzwords

Praxisartikel zu Automatisierung, Agentic Workflows und operativen Systemen. Kein Content-Marketing. Erscheint wenn es etwas zu sagen gibt.

Nächster Schritt

Wenn operative Reibung Wachstum bremst

Der nächste Schritt ist selten ein weiteres Tool — sondern Klarheit darüber, wo genau die Reibung entsteht. Und ein System, das das dauerhaft löst.

Kurz, konkret, ohne Pitch: Wir klären Lage, Prioritäten und den sinnvollsten Einstieg.