08. April 202614 Min Lesezeit

Agent Memory in LLM Systems — Context, Persistence & Retrieval

LLMs sind von Natur aus vergesslich — jeder API-Call startet bei null. Agent Memory ist die Infrastruktur, die das ändert: Short-Term Memory hält den Konversationskontext, Long-Term Memory speichert Wissen über Sessions hinweg, und Episodic Memory lernt aus vergangenen Erfahrungen. Dieser Artikel zeigt die fünf Memory-Typen, ihre Architektur-Patterns und eine Roadmap für den Aufbau gedächtnisfähiger Agenten-Systeme.

Agent MemoryLLMRAGPersistenceMulti-Agent

Die fundamentale Erkenntnis: Memory ist kein Modell-Problem

Agent Memory ist kein Feature des Modells. Es ist Infrastruktur, die du um das Modell herum baust. Das Modell erinnert sich nicht. Die Infrastruktur erinnert sich. Das Modell sieht nur das, was die Infrastruktur in das Context Window legt.

Größere Context Windows (128K, 200K, 1M Tokens) lösen das Problem nicht. Sie verschieben es nur. Memory-Qualität bestimmt Agenten-Qualität.

Die fünf Memory-Typen

Short-Term / Working Memory hält die aktuelle Konversation und den laufenden Task-Kontext. Technisch umgesetzt durch Context Window und Chat History Buffer — Lebensdauer: 1 Session.

Long-Term Semantic Memory speichert Fakten, Wissen und User-Präferenzen in einer Vector DB oder einem Knowledge Graph — persistent.

Episodic Memory hält vergangene Erfahrungen, Interaktionen und Events in einem Event Store mit Timestamps — persistent.

Procedural Memory enthält System-Prompts, Agent-Code und Tool-Definitionen — quasi-permanent.

Shared / Collective Memory ist Wissen, das über Agenten oder Teams geteilt wird in einer Shared Knowledge Base — persistent.

Short-Term Memory: Das Context Window richtig nutzen

Das Problem mit naivem Chat History

Ohne Strategie entstehen drei Probleme: Token-Kosten explodieren (jede neue Nachricht schickt den gesamten Verlauf mit), Qualität sinkt durch das "Lost in the Middle"-Problem, und Latenz steigt durch lange Kontexte.

Lösung: Pattern 3 — Semantic Retrieval

Statt alles mitzuschicken, holst du nur relevante Teile der Geschichte zurück. System Prompt + relevante Erinnerungen (top_k=5) + die letzten 3 Nachrichten ergibt ~2.500 Tokens statt 40.000.

Long-Term Memory: Wissen über Sessions hinweg

Vector Store — Semantische Suche

Konvertiere Erinnerungen in Embeddings, speichere sie in Qdrant, Pinecone oder pgvector, und retrieve per Similarity Search. Mem0 extrahiert automatisch atomare Fakten aus Konversationen — du musst nicht selbst definieren, was gespeichert wird.

Knowledge Graph — Strukturierte Beziehungen

Für Szenarien, in denen Beziehungen zwischen Entitäten wichtig sind: Kunde → Branche, Ansprechpartner → Präferenzen, Projekt → Status und Blocker.

Episodic Memory: Lernen aus Erfahrung

Ein Support-Agent mit Episodic Memory erinnert sich: "Letztes Mal, als ein Kunde aus der Automotive-Branche das gleiche Problem hatte, war die Lösung X. Der erste Versuch Y hat nicht funktioniert." Das ist Erfahrungswissen — kein Fakten-Retrieval, sondern "was hat funktioniert und was nicht?"

Das Memory-Framework-Ökosystem 2026

Mem0 hat die breiteste Adoption mit Dual-Store (Vector + Graph) und automatischer Fakt-Extraktion. LangGraph Memory integriert sich nahtlos mit LangChain für komplexe Agentic Workflows. Zep glänzt bei zeitabhängigen Fakten und langen Konversationen. Redis Agent Memory Server bietet die niedrigste Latenz für latenz-kritische Agenten.

Architektur-Patterns

Pattern 1: Read-Write Memory

Memory READ — relevante Erinnerungen für den aktuellen Input suchen
Context Assembly — System Prompt + Memories + History + User Input
LLM Response — Agent generiert Antwort
Memory WRITE — neue Fakten extrahieren und speichern

Pattern 2: Reflection-Based Memory

Nach einer Session reflektiert ein separater LLM-Call und extrahiert Meta-Wissen: was gut funktioniert hat, was nicht, und Lehren für zukünftige Interaktionen.

Pattern 3: Autonomous Memory Orchestration

Der Agent entscheidet selbst wann er Memory liest, schreibt oder aktualisiert. Memory-Operationen werden als Tools definiert: memory_search, memory_store, memory_update, memory_forget.

Memory-Qualität: Die vergessene Dimension

Memory Bloat entsteht ohne Filterung — nach 1.000 Sessions hast du 50.000 Entries, davon 80% irrelevant. Lösung: Relevanz-Scoring bei der Extraktion.

Memory Drift entsteht wenn veraltete Fakten nicht aktualisiert werden. Lösung: Conflict Detection und Temporal Awareness.

Halluzinierte Erinnerungen entstehen wenn das LLM Fakten "extrahiert" die nie gesagt wurden. Lösung: Confidence Scores und Verification.

Die 80/20-Regel für Memory

Mit Short-Term Memory Management (Sliding Window + Summarization) und einfacher Long-Term Memory (Vector Store + Fakt-Extraktion) deckst du 80% der Use Cases ab. Qualität der Erinnerungen schlägt Quantität — ein Agent der sich an die richtigen 50 Fakten erinnert ist wertvoller als einer mit 50.000 Fakten.

Verwandte Artikel

Enterprise LLM Architecture: Multi-Agent Systems

10 Min Lesezeit

Multi-Agent-Systeme in Claude: Architektur-Entscheidungen, die tatsächlich zählen

12 Min Lesezeit

Enterprise LLM Architecture: Structured Data Extraction

10 Min Lesezeit

Enterprise LLM Architecture: Customer Support Orchestration

9 Min Lesezeit

Newsletter

KI im Sales — ohne Buzzwords

Praxisartikel zu Automatisierung, Agentic Workflows und operativen Systemen. Kein Content-Marketing. Erscheint wenn es etwas zu sagen gibt.

Nächster Schritt

Jede Woche ohne System ist eine Woche Vorsprung für deine Konkurrenz.

In 5 Werktagen weißt du, wo dein Team Zeit verliert — und was wir dagegen tun. Max. 2 Stunden dein Zeitaufwand. Kein Foliensatz, kein Audit der in der Schublade landet.

Keep / Kill / Upgrade: welche Tools bleiben, welche weg können — konkret begründet
3 priorisierte Use Cases mit klarer 90-Tage-Roadmap
Board-ready Report (8–12 Seiten) — heute noch zeigbar
Klarheits-Garantie: kein Ergebnis, kein Geld

hello@merlinmechler.de

Recruiter & Hiring Manager

Sie suchen jemanden, der KI-Adoption und operativen Kontext zusammenbringt.

Ich bringe Business-Kontext und technische Umsetzung zusammen: GTM-Realität aus 8+ Jahren in B2B Sales und die Tiefe für AI Adoption, Use-Case-Priorisierung und Workflow-Integration — kein Theoretiker, sondern jemand der weiß, wie Unternehmen wirklich funktionieren.

KI-Produktivität & AI Adoption: Non-Tech-Teams auf Senior-Level-Output bringen — nicht theoretisch, sondern hands-on
8+ Jahre B2B Sales, Growth & Operations — ich kenne operative Probleme von innen
Python, SQL und technische Umsetzung — production-ready, nicht Demo
Workflow Automation & Applied AI: von der Diagnose bis zum laufenden System
Produktivitätsgenie: Diagnose first, dann bauen — kein Flickwerk, keine KI-Trends-Präsentation

hello@merlinmechler.de