Merlin Mechler
Alle Artikel
10 Min Lesezeit

Kleine Modelle schlagen Große — Wann Llama 3 besser als GPT-4 ist

Ein fine-tuned Phi-3-mini (3,8B Parameter) schlug GPT-4o bei Versicherungsklassifikation mit 94% vs. 80% Genauigkeit — für 8% der Kosten. Wann kleine Modelle gewinnen und wie das Portfolio-Modell funktioniert.

Agentic WorkflowsAutomatisierungProduktivitätKI im Sales

Definition

Kleine Modelle schlagen Große — Wann Llama 3 besser als GPT-4 ist: Small Language Models (SLMs, 1–14 Milliarden Parameter) sind auf Effizienz trainierte KI-Modelle, die bei eng definierten Tasks nach Fine-Tuning General-Purpose-LLMs in Genauigkeit, Latenz und Kosteneffizienz übertreffen — und dabei on-premise deploybar sind.

Marcus, CTO eines Münchner Insurtechs, hatte ein Problem. Sein KI-Schadenklassifikator auf Basis GPT-4o lieferte 80% Genauigkeit. Die monatliche Rechnung: 23.000 EUR für 150.000 Klassifikationen.

Sein Team machte ein Experiment: Phi-3-mini (3,8 Milliarden Parameter, vs. GPT-4os geschätzte 200+ Milliarden). Fine-tuned auf 8.000 gelabelten Schadensfällen.

Das Ergebnis:

  • Genauigkeit: 94% (vs. 80% bei GPT-4o)
  • Kosten: 1.800 EUR/Monat (vs. 23.000 EUR)
  • Latenz: 45ms (vs. 850ms)

Ein Modell, das 50x kleiner ist, lieferte bessere Ergebnisse für 8% der Kosten. Das ist kein Ausreißer — das ist ein Muster.


Wann kleine Modelle große schlagen

SLM gewinnt wenn:

  • Der Task eng definiert ist (Klassifikation, Extraktion, FAQ-Beantwortung)
  • Hohe Volumina anfallen (ab ~10.000 Anfragen/Tag)
  • Latenz kritisch ist (SLMs: 20–80ms vs. LLMs: 500–1.500ms)
  • Datenhoheit nicht verhandelbar ist (On-Premise deployment)
  • Konsistenz wichtiger ist als Kreativität

LLM gewinnt wenn:

  • Der Task offen und komplex ist (Multi-Step-Reasoning, kreative Texte)
  • Breites Weltwissen gebraucht wird
  • Wenige Daten für Fine-Tuning vorhanden sind
  • Anforderungen sich häufig ändern

Das Portfolio-Modell: Der intelligente Router

Anfrage rein
    |
[Komplexitäts-Classifier]
    |
    +-- Einfach → SLM (Fine-tuned)         ~0,10 EUR/1000
    |
    +-- Mittel → Llama 3.3 70B             ~0,50 EUR/1000
    |
    +-- Komplex → GPT-4o / Claude 3.5      ~5,00 EUR/1000

Ergebnis: 70–80% der Anfragen beim SLM, 5–10% beim LLM. Gesamtkosten sinken um 60–80%.


Realer Case: Kundenservice-Automatisierung

Ticket-TypAnteilModellGenauigkeitKosten/Ticket
WISMO ("Wo ist meine Bestellung?")42%Mistral 7B Fine-tuned97%0,002 EUR
Retouren23%Phi-3 Fine-tuned94%0,003 EUR
Produktberatung20%Llama 3.3 70B88%0,012 EUR
Komplexe Beschwerden12%Claude 3.5 Sonnet91%0,045 EUR

Vorher (alles GPT-4o): 8.100 EUR/Monat

Nachher (Portfolio): 1.350 EUR/Monat

Einsparung: 83% — bei gestiegener Genauigkeit


Modell-Vergleich 2026

ModellParameterDACH-EignungKosten (API)
GPT-4o~200B+Mittel (US-Server)~2,50–10 USD/1M Tokens
Llama 3.3 70B70BHoch (On-Premise möglich)~0,23–0,90 USD/1M Tokens
Mistral 7B7BSehr hoch (EU-Firma, Open Source)~0,05–0,25 USD/1M Tokens
Phi-414BSehr hoch (lokal deploybar)~0,07–0,15 USD/1M Tokens

Mistral für den DACH-Raum: Französisches Unternehmen, Open Source, DSGVO-konform deploybar, überdurchschnittliche Sprachunterstützung für Deutsch.


Fine-Tuning: So wird ein kleines Modell zum Spezialisten

Was du brauchst:

  • 500–2.000 gelabelte Trainingsbeispiele
  • 1x NVIDIA A10G (24GB VRAM) — reicht für 7B Modelle
  • Cloud-Kosten Training: ~50–200 EUR einmalig
  • Methode: QLoRA — reduziert VRAM-Bedarf um 90%+

ROI Fine-Tuning vs. API (100K Queries/Monat):

GPT-4o APIPhi-3 Fine-tuned
Setup-Kosten0 EUR5.000–15.000 EUR
Monatliche Kosten15.000–30.000 EUR2.000–5.000 EUR
Break-EvenMonat 1–2
Jährliche Einsparung120.000–280.000 EUR

Newsletter

KI im Sales — ohne Buzzwords

Praxisartikel zu Automatisierung, Agentic Workflows und operativen Systemen. Kein Content-Marketing. Erscheint wenn es etwas zu sagen gibt.

Nächster Schritt

Wenn du willst, dass Deals wieder sauber Richtung Entscheidung laufen

Dann starten wir mit einem POC Sprint und machen eure Pipeline in 10 Tagen führbar — inklusive Templates, Playbooks und einem Rhythmus, der im Alltag hält.