Skip to content
Learning Lab · 4 min read

Kontextfenstermanagement: Lange Dokumente verarbeiten, ohne Daten zu verlieren

Kontextfenster-Limits brechen produktive KI-Systeme. Lernen Sie drei konkrete Techniken, um lange Dokumente und Konversationen zu verarbeiten, ohne Daten zu verlieren oder API-Kosten zu sprengen.

Context Window Management for Long Documents & Conversations

Ihr API-Aufruf wird abgeschlossen. Claude oder GPT-4o liefert eine Antwort. Aber irgendwo in der Mitte Ihres 8.000 Wörter langen Dokuments hat es aufgehört, darauf zu achten. Nicht weil das Modell kaputt ist – sondern weil Ihnen das Kontextfenster ausgegangen ist.

Das Kontextfenster ist die maximale Anzahl von Tokens, die ein LLM in einer einzigen Anfrage verarbeiten kann. Claude 3.5 Sonnet verarbeitet 200.000 Tokens. GPT-4o verarbeitet 128.000. Llama 3 70B verarbeitet 8.000. Überschreiten Sie dieses Limit, schlägt Ihre Anfrage fehl. Bleiben Sie darunter, aber quetschen Sie zu viel hinein, verschlechtert sich die Aufmerksamkeit des Modells auf im mittleren Bereich vergrabene Inhalte – ein Phänomen, das als „Lost in the Middle“-Problem bezeichnet wird.

Dies ist keine theoretische Einschränkung. Es zerstört reale Produktionssysteme: Kundensupport-Chatbots, die sich frühe Gesprächsrunden nicht merken können, Dokumentenanalyse-Pipelines, die kritische Abschnitte übersehen, und Forschungsabläufe, die bei PDFs ins Stocken geraten.

Wie das Kontextfenster tatsächlich funktioniert

Jedes Wort, jede Zahl, jedes Satzzeichen und jeder Leerraum wird in Tokens umgewandelt, bevor das Modell es verarbeitet. Ein Token entspricht ungefähr 4 Zeichen im Englischen, variiert aber je nach Sprache und Struktur.

Ein 200.000-Token-Fenster von Claude Sonnet gliedert sich wie folgt auf:

  • System-Prompt: 500 Tokens
  • Benutzereingabe (Ihr Dokument): 150.000 Tokens
  • Konversationsverlauf: 30.000 Tokens
  • Reserviert für Ausgabe: 19.500 Tokens

Ihnen bleiben 19.500 Tokens für die Antwort des Modells. Wenn Sie eine detaillierte Analyse benötigen, ist das genug. Wenn Sie mehrere logische Schritte benötigen, wird es knapp.

Die Mathematik ist starr: Eingabe-Tokens + Ausgabe-Tokens ≤ Kontextfenster. Überschreiten Sie dies, lehnen die meisten API-Anbieter die Anfrage mit einem 400er-Fehler ab. Einige Dienste reihen sie in die Warteschlange. Keiner von ihnen kürzt sie stillschweigend.

Das „Lost in the Middle“-Problem ist real

Im September 2023 testeten Forscher des MIT, ob LLMs tatsächlich den gesamten Kontext nutzen, den sie angeblich unterstützen. Sie fügten eine Schlüsselinformation an verschiedenen Stellen eines langen Dokuments ein und baten das Modell, sie abzurufen.

Das Ergebnis: Modelle erzielen die besten Ergebnisse bei Informationen am Anfang und Ende des Kontexts. Informationen in der Mitte – Positionen 40–60 % des Dokuments – werden mit 25–35 % geringerer Genauigkeit verarbeitet als dieselben Informationen am Anfang.

Dies ist kein spezifisches Problem von Claude oder GPT-4o. Es betrifft alle Transformer-basierten Modelle. Der Grund: Aufmerksamkeitsmuster in Sprachmodellen gewichten frühere Tokens standardmäßig stärker, und das Modell „spart“ Kapazität für die endgültige Zusammenfassung und Antwort.

Praktische Auswirkungen: Wenn Ihr Kundensupport-Bot eine Konversation mit 5 Nachrichten verarbeitet, erhalten frühe Nachrichten eine verschlechterte Behandlung. Wenn Ihr Dokumentenanalysator ein 50-seitiges PDF verarbeitet, werden die Seiten 20–30 unsichtbar.

Technik 1: Vor der Verarbeitung zusammenfassen

Anstatt das gesamte Dokument zu senden, komprimieren Sie es zuerst.

# Schlechter Ansatz: vollständiges Dokument senden
Benutzer: „Analysiere diesen 30-seitigen Vertrag. Was sind die wichtigsten Verpflichtungen?“
[gesamten 30-seitigen Vertrag als Eingabe senden]

Das Modell verwendet wertvolles Kontextfenster für Formulierungen, die nicht wichtig sind.

# Verbesserter Ansatz: zweistufiger Prozess
Schritt 1: Dokument zusammenfassen
Prompt: „Fasse diesen Vertrag in 500 Tokens zusammen. Behalte Verpflichtungen, Zeitplan und Zahlungsbedingungen bei. Entferne Standardformulierungen.“
[vollständigen Vertrag senden]
Ausgabe: 500-Token-Zusammenfassung

Schritt 2: Zusammenfassung analysieren
Prompt: „Liste basierend auf dieser Zusammenfassung alle Gegenparteiverpflichtungen auf und bestimme, welche Partei jedes Risiko trägt.“
[die 500-Token-Zusammenfassung senden]
Ausgabe: Strukturierte Analyse

Warum das funktioniert: Sie nutzen das Kontextfenster im ersten Aufruf, um Signale zu extrahieren, und verarbeiten dann nur das Signal im zweiten Aufruf. Der zweite Aufruf ist schneller, günstiger und genauer, da das Modell mit destillierten Informationen arbeitet.

Echte Token-Einsparungen: Ein 50-seitiger Vertrag (ca. 25.000 Tokens) wird zu einer 500-Token-Zusammenfassung. Ihr zweiter Analyseaufruf sinkt von 25.500 Tokens auf 1.000.

Technik 2: Chunks und Neu-Ranking für den Konversationsverlauf

Lange Konversationen sind das schwierigste Kontextproblem, da jede neue Nachricht an den Verlauf angehängt wird. Nach 15 Austauschen haben Sie 8.000–15.000 Tokens allein für die Gesprächserinnerung verbraucht.

# Problem: Konversationsverlauf bläht sich auf
Gesprächsrunde 20:
System: [ursprünglicher System-Prompt]
Benutzer: [Runde 1]
Assistent: [Antwort]
Benutzer: [Runde 2]
Assistent: [Antwort]
... [Runden 3–19] ...
Benutzer: [Runde 20] <- neue Nachricht
Assistent: [Modell antwortet]

Bis zur Runde 20 hat das Modell 15+ irrelevante Austausche gesehen, bevor es zur aktuellen Frage gelangt. Bis zur Runde 50 ist der Kontext größtenteils totes Gewicht.

Lösung: Verwenden Sie einen Neu-Ranking-Ansatz.

Bewerten Sie nach jeweils 8–10 Runden jede historische Nachricht anhand ihrer Relevanz für den aktuellen Gesprächsverlauf mithilfe von Embeddings oder einem leichten Sprachmodell. Behalten Sie nur die 5–7 relevantesten vergangenen Runden sowie die 2 aktuellsten Runden bei. Verwerfen Sie den Rest.

import openai
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

def prune_conversation_history(history, current_message, max_turns=7):
# Embed all past user messages
past_messages = [h[

Batikan
· 4 min read
Topics & Keywords
Learning Lab die sie das und das modell 000 ist tokens
Share

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies.

Related Articles

KI-Agenten entwickeln: Architekturmuster, Tool-Aufrufe und Speichermanagement
Learning Lab

KI-Agenten entwickeln: Architekturmuster, Tool-Aufrufe und Speichermanagement

Erfahren Sie, wie Sie produktionsreife KI-Agenten entwickeln, indem Sie Tool-Aufruf-Verträge beherrschen, Agentenschleifen korrekt strukturieren und den Speicher in Sitzungs-, Wissens- und Ausführungsebenen aufteilen. Enthält funktionierende Python-Codebeispiele.

· 5 min read
LLMs mit Tools verbinden: Ein Setup zur Workflow-Automatisierung
Learning Lab

LLMs mit Tools verbinden: Ein Setup zur Workflow-Automatisierung

Verbinden Sie ChatGPT, Claude und Gemini mit Slack, Notion und Sheets über APIs und Automatisierungsplattformen. Lernen Sie die Kompromisse zwischen den Modellen kennen, erstellen Sie einen funktionierenden Slack-Bot und automatisieren Sie noch heute Ihren ersten Workflow.

· 5 min read
Zero-Shot vs. Few-Shot vs. Chain-of-Thought: Wählen Sie die richtige Technik
Learning Lab

Zero-Shot vs. Few-Shot vs. Chain-of-Thought: Wählen Sie die richtige Technik

Zero-Shot, Few-Shot und Chain-of-Thought sind drei verschiedene Prompting-Techniken mit unterschiedlichen Genauigkeits-, Latenz- und Kostenprofilen. Erfahren Sie, wann Sie jede einsetzen, wie Sie sie kombinieren und wie Sie messen, welcher Ansatz für Ihre spezifische Aufgabe am besten funktioniert.

· 17 min read
10 ChatGPT-Workflows, die im Geschäftsleben tatsächlich Zeit sparen
Learning Lab

10 ChatGPT-Workflows, die im Geschäftsleben tatsächlich Zeit sparen

ChatGPT spart Stunden, wenn Sie ihm Struktur und klare Einschränkungen geben. Hier sind 10 produktive Workflows – von der E-Mail-Erstellung bis zur Wettbewerbsanalyse –, die repetitive Arbeit halbieren, mit funktionierenden Prompts, die Sie noch heute verwenden können.

· 2 min read
Schluss mit generischen Prompts: Modellspezifische Techniken, die wirklich funktionieren
Learning Lab

Schluss mit generischen Prompts: Modellspezifische Techniken, die wirklich funktionieren

Auszug: Claude, GPT-4o und Gemini reagieren unterschiedlich auf denselben Prompt. Lernen Sie modellspezifische Techniken, die die Stärken jedes einzelnen nutzen – mit funktionierenden Beispielen, die Sie heute verwenden können.

· 3 min read
Schreiben wie ein Mensch: KI-Inhalte ohne Roboterstimme
Learning Lab

Schreiben wie ein Mensch: KI-Inhalte ohne Roboterstimme

KI-generierte Inhalte sind standardmäßig durchschnittlich – sicher, professionell und ununterscheidbar. Lernen Sie vier Techniken, um Ihrer KI eine echte Stimme zu verleihen: Spezifitätsbeschränkungen, Musterabgleich mit Ihren eigenen Texten, Temperatureinstellung und ein Audit-Pass, der Roboter-Muster entfernt.

· 2 min read

More from Prompt & Learn

Figma KI vs Canva KI vs Adobe Firefly: Design-Tools im Vergleich
AI Tools Directory

Figma KI vs Canva KI vs Adobe Firefly: Design-Tools im Vergleich

Figma KI, Canva KI und Adobe Firefly verfolgen unterschiedliche Ansätze für generatives Design. Figma priorisiert nahtlose Integration, Canva Geschwindigkeit und Firefly Ausgabequalität. Hier erfahren Sie, welches Tool zu Ihrem tatsächlichen Workflow passt.

· 5 min read
DeepL führt Sprachübersetzung ein. Was sich für Teams ändert
AI Tools Directory

DeepL führt Sprachübersetzung ein. Was sich für Teams ändert

DeepL kündigte Echtzeit-Sprachübersetzung für Zoom und Microsoft Teams an. Im Gegensatz zu bestehenden Lösungen baut es auf DeepLs Stärke bei der Textübersetzung auf – direkte Übersetzungsmodelle mit geringerer Latenz. Hier erfahren Sie, warum das wichtig ist und wo es an seine Grenzen stößt.

· 3 min read
10 kostenlose KI-Tools, die sich 2026 wirklich bezahlt machen
AI Tools Directory

10 kostenlose KI-Tools, die sich 2026 wirklich bezahlt machen

Zehn kostenlose KI-Tools, die 2026 tatsächlich bezahlte SaaS ersetzen: Claude, Perplexity, Llama 3.2, DeepSeek R1, GitHub Copilot, OpenRouter, HuggingFace, Jina, Playwright und Mistral. Jedes über reale Arbeitsabläufe getestet mit realistischen Ratenlimits, Genauigkeitsbenchmarks und Kostenvergleichen.

· 6 min read
Copilot vs Cursor vs Windsurf: Welcher IDE-Assistent funktioniert wirklich?
AI Tools Directory

Copilot vs Cursor vs Windsurf: Welcher IDE-Assistent funktioniert wirklich?

Drei Coding-Assistenten dominieren 2026. Copilot bleibt sicher für Unternehmen. Cursor gewinnt bei den meisten Entwicklern durch Geschwindigkeit und Genauigkeit. Windsurfs Agentenmodus führt tatsächlich Code aus, um Halluzinationen zu verhindern. Hier erfahren Sie, wie Sie wählen.

· 5 min read
KI-Tools, die Ihnen wirklich Stunden pro Woche sparen
AI Tools Directory

KI-Tools, die Ihnen wirklich Stunden pro Woche sparen

Ich habe 30 KI-Produktivitätstools für Schreiben, Programmieren, Recherche und Betrieb getestet. Nur 8 haben tatsächlich messbare Zeit gespart. Hier sind die Tools mit echtem ROI, die Workflows, in denen sie punkten, und warum die meisten „KI-Produktivitätstools“ versagen.

· 12 min read
Googles KI-Wasserzeichensystem angeblich geknackt. Was das bedeutet
AI News

Googles KI-Wasserzeichensystem angeblich geknackt. Was das bedeutet

Ein Entwickler behauptet, Googles SynthID-Wasserzeichensystem von DeepMind mittels einfacher Signalverarbeitung und 200 Bildern reverse-engineert zu haben. Google bestreitet die Behauptung, doch der Vorfall wirft Fragen auf, ob Wasserzeichen eine zuverlässige Abwehr gegen den Missbrauch von KI-generierten Inhalten darstellen können.

· 4 min read

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies. No noise, only signal.

Follow Prompt Builder Prompt Builder