Skip to content
Learning Lab · 6 min read

Warum LLMs halluzinieren und 4 Wege, es zu stoppen

LLMs halluzinieren, weil sie Tokens statt Fakten vorhersagen. Erfahren Sie genau, warum das passiert und vier praxiserprobte Techniken zur Fehlerreduzierung – vom Verankern von Prompts in echten Daten bis hin zu Verifizierungs-Schleifen, die falsche Zitate abfangen.

Why LLMs Hallucinate and How to Fix It

Claude hat gerade zuversichtlich drei Forschungsarbeiten in Ihrer RAG-Pipeline zitiert. Keine davon existiert. Sie haben nachgeprüft. Das passiert, weil LLMs keine Fakten abrufen – sie sagen das nächste Token basierend auf Mustern in Trainingsdaten voraus. Wenn diese Vorhersage von der Realität abweicht, erhalten Sie eine Halluzination. Zu verstehen, warum das passiert, ist der erste Schritt zur Verhinderung.

Was Halluzination tatsächlich ist (und warum Ihr Modell nicht kaputt ist)

Halluzination ist kein Fehler im Sinne eines Laufzeitfehlers. Es ist eine grundlegende Konsequenz der Funktionsweise großer Sprachmodelle. Ein LLM generiert Text Token für Token und wählt das nächste Wort basierend auf Wahrscheinlichkeitsverteilungen aus, die während des Trainings gelernt wurden. Wenn die Trainingsdaten Muster enthielten, die Selbstvertrauen belohnen (Spoiler: das taten sie), lernt das Modell, sicher zu klingen, auch wenn es das nicht ist.

In Benchmarks erreicht Claude 3.5 Sonnet eine faktenbasierte Genauigkeit von ~92 % bei geschlossenen Fragen. Das klingt hoch, bis man bedenkt, dass dies bedeutet, dass etwa jede 12. Antwort eine Erfindung enthält. Wenn Sie täglich Tausende von Inferenzläufen durchführen, stoßen Sie regelmäßig auf Halluzinationen.

Das Problem verschärft sich, wenn Sie ein Modell auffordern, über Informationen zu schlussfolgern, die es noch nicht gesehen hat. Ein Modell, das auf Daten bis April 2024 trainiert wurde, kann nicht wissen, was im Juni 2024 passiert ist. Anstatt zu sagen „Ich weiß es nicht“, generiert es plausibel klingenden Text, der zum Muster passt. So entstehen Forschungsarbeiten, die nicht existieren.

Die drei Fehlerarten, auf die Sie tatsächlich stoßen

Halluzinationen sind nicht zufällig. Sie folgen vorhersagbaren Mustern, abhängig von Ihrem Anwendungsfall.

Halluzinationen durch Wissensgrenze (Knowledge cutoff hallucinations): Das Modell generiert aktuelle Informationen mit Zuversicht, obwohl es auf älteren Daten trainiert wurde. Beispiel: Wenn Sie GPT-3.5 nach Ereignissen im Jahr 2024 fragen, erhalten Sie erfundene Fakten, die als Nachrichten verpackt sind. Lösung: Fügen Sie immer das aktuelle Datum in Ihren System-Prompt ein und geben Sie explizit den Trainings-Cutoff des Modells an.

Halluzinationen bei der Befolgung von Anweisungen (Instruction-following hallucinations): Das Modell erfindet Informationen, um Ihre Aufforderung zu erfüllen. Sie bitten um 10 Fallstudien – es liefert 10, auch wenn nur 4 in seinen Trainingsdaten existieren. Die restlichen 6 sind erfunden, um Ihre Anfrage zu erfüllen. Deshalb sind Prompts wie „Finde 5 Beispiele für…“ gefährlich, wenn sie nicht verankert sind.

Halluzinationen beim Schlussfolgern (Reasoning hallucinations): Das Modell verknüpft plausibel klingende Logik, die ins Leere führt. Es zitiert Quellen, zitiert Experten, konstruiert ganze Erzählungen – alles intern kohärent, alles potenziell falsch. Diese sind am schwierigsten zu erkennen, weil sie nicht falsch klingen.

Technik 1: Verankern Sie Ihre Prompts in tatsächlichen Daten

Dies ist die effektivste Methode zur Reduzierung. Anstatt das Modell aufzufordern, aus dem Gedächtnis abzurufen oder zu schlussfolgern, übergeben Sie ihm die spezifischen Informationen, die es benötigt, und bitten Sie es, nur damit zu arbeiten.

Schlechter Prompt:

Fasse die neuesten Markttrends im Bereich erneuerbare Energien zusammen.

Das Modell wird aktuelle Trends halluzinieren, weil es nicht weiß, was „neueste“ für Sie bedeutet.

Verbesserter Prompt:

Fasse basierend NUR auf dem folgenden Marktbericht aus Q1 2025 die Top-Drei-Trends zusammen. 

Bericht:
[HIER DEN TATSÄCHLICHEN BERICHTTEXT EINFÜGEN]

Regeln:
- Füge keine Informationen aus deinen Trainingsdaten hinzu
- Wenn Informationen nicht im Bericht enthalten sind, sage dies ausdrücklich
- Zitiere direkt, wenn eine Behauptung aufgestellt wird

Diese Verlagerung – vom offenen Abruf zum begrenzten Schlussfolgern – reduziert Halluzinationen in wiederholten Tests bei strukturierten Extraktionsaufgaben um ~60 %. Sie bitten das Modell nicht mehr, etwas zu wissen; Sie bitten es, etwas zu lesen.

Technik 2: Verwenden Sie Temperatur- und Sampling-Steuerungen

Die Temperatur steuert, wie viel Zufälligkeit das Modell bei der Auswahl des nächsten Tokens einführt. Höhere Temperatur = kreativer, weniger vorhersehbar. Niedrigere Temperatur = deterministischer, sicherer.

Für faktenbasierte Aufgaben hilft eine niedrigere Temperatur. Claudes Standardwert ist 1,0; für Extraktion oder Zusammenfassung verwenden Sie 0,3 bis 0,5. Dies reduziert die Tendenz des Modells, unwahrscheinliche Token-Sequenzen zu erforschen – dort lauern oft Halluzinationen.

Dies ist jedoch ein grobes Werkzeug. Das Senken der Temperatur eliminiert Halluzinationen nicht; es macht sie nur seltener. Eine Temperatur von 0,0 erzeugt keine Wahrheit – sie erzeugt die statistisch wahrscheinlichste Antwort, die immer noch falsch sein kann.

Python-Beispiel mit der Claude API:

import anthropic

client = anthropic.Anthropic()

# Extraktionsaufgabe mit niedriger Temperatur
response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    temperature=0.3,  # Niedriger für faktenbasierte Aufgaben
    messages=[
        {
            "role": "user",
            "content": "Extrahiere die Firmennamen aus diesem Text: [TEXT]"
        }
    ]
)

print(response.content[0].text)

Technik 3: Implementieren Sie Verifizierungs-Schleifen

Gehen Sie nicht davon aus, dass die Ausgabe eines einzelnen Modells zuverlässig ist. Fügen Sie einen zweiten Durchgang hinzu, der den ersten prüft.

Für Faktenbehauptungen verwenden Sie Claude oder ein anderes starkes Modell, um Zitate zu verifizieren. Fragen Sie es: „Sind diese Papiere echt? Überprüfen Sie jedes Zitat und kennzeichnen Sie alles, was Sie nicht bestätigen können.“ Dies fängt ~75 % der erfundenen Referenzen in meinen Tests ab.

Für strukturierte Daten analysieren Sie die Ausgabe und validieren Sie sie anhand bekannter Muster. Wenn Sie E-Mail-Adressen extrahieren, überprüfen Sie das Format. Wenn Sie Daten extrahieren, verifizieren Sie, dass sie gültig sind. Wenn Sie URLs extrahieren, testen Sie, ob sie auflösbar sind (oder zumindest einem gültigen Muster folgen).

Für Schlussfolgerungsaufgaben verwenden Sie eine Technik namens „Self-Contradiction Checking“ (Prüfung auf Selbstwiderspruch). Stellen Sie dem Modell dieselbe Frage auf drei verschiedene Arten. Wenn die Antworten erheblich abweichen, kennzeichnen Sie sie für eine menschliche Überprüfung, anstatt die Antwort zu vertrauen.

Technik 4: Beschränken Sie das Ausgabeformat streng

Halluzinationen gedeihen in unstrukturierten Antworten. Beschränken Sie das Modell auf JSON, XML oder CSV mit einem klaren Schema.

Anstatt:

Extrahiere den Produktnamen und den Preis von dieser Quittung.

Verwenden Sie:

Extrahiere Daten aus dieser Quittung. Gib NUR gültiges JSON in diesem Format zurück, kein anderer Text:
{
  "product_name": "string",
  "price_usd": number,
  "currency": "string"
}

Quittung:
[TEXT]

Strukturierte Ausgabe reduziert Halluzinationen, da das Modell weniger Freiheitsgrade hat. Es kann nicht ausschweifen oder narrative Ausschmückungen erfinden – es muss in das Schema passen, sonst schlägt die Ausgabe nachgelagert fehl.

Claude unterstützt den nativen JSON-Modus (stellen Sie temperature auf 0 ein und fügen Sie "type": "json_object" in API-Aufrufe ein), was ungültige Ausgaben weiter reduziert.

Starten Sie hier: Wählen Sie eine Technik für Ihre Pipeline

Implementieren Sie nicht alle vier gleichzeitig. Beginnen Sie mit dem Grounding – es ist die wirkungsvollste Änderung mit dem geringsten Aufwand. Geben Sie Ihrem Modell echte Daten anstelle von Erinnerungen.

Auditieren Sie diese Woche einen Prompt in Ihrem System. Finden Sie eine Stelle, an der Sie das Modell bitten, Informationen abzurufen oder zu erfinden. Ersetzen Sie ihn durch eine Version, die das tatsächliche Quellmaterial enthält. Führen Sie 20 Testfälle durch. Zählen Sie die Halluzinationen davor und danach. Sie werden den Unterschied sofort erkennen.

Batikan
· 6 min read
Topics & Keywords
Learning Lab sie die das das modell nicht und wenn wenn sie
Share

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies.

Related Articles

Professionelle Logos mit Midjourney erstellen: Schritt für Schritt zu Marken-Assets
Learning Lab

Professionelle Logos mit Midjourney erstellen: Schritt für Schritt zu Marken-Assets

Midjourney generiert Logo-Konzepte in Sekundenschnelle – aber professionelle Marken-Assets erfordern spezifische Prompt-Strukturen, iterative Verfeinerung und Vektor-Konvertierung. Diese Anleitung zeigt den exakten Workflow, der produktionsreife Logos erzeugt.

· 5 min read
Claude vs. ChatGPT vs. Gemini: Wählen Sie die richtige LLM für Ihren Workflow
Learning Lab

Claude vs. ChatGPT vs. Gemini: Wählen Sie die richtige LLM für Ihren Workflow

Claude, ChatGPT und Gemini eignen sich jeweils für unterschiedliche Aufgaben. Dieser Leitfaden analysiert reale Leistungsunterschiede, Halluzinationsraten, Kosten und spezifische Workflows, bei denen jedes Modell glänzt – mit konkreten Prompts, die Sie sofort verwenden können.

· 4 min read
Erstellen Sie Ihren ersten KI-Agenten ohne Code
Learning Lab

Erstellen Sie Ihren ersten KI-Agenten ohne Code

Erstellen Sie Ihren ersten funktionierenden KI-Agenten ohne Code oder API-Kenntnisse. Lernen Sie die drei Agentenarchitekturen kennen, vergleichen Sie Plattformen und durchlaufen Sie ein echtes Beispiel für die E-Mail-Triage und CRM-Abfrage – von der Einrichtung bis zur Bereitstellung.

· 14 min read
Kontextfenstermanagement: Lange Dokumente verarbeiten, ohne Daten zu verlieren
Learning Lab

Kontextfenstermanagement: Lange Dokumente verarbeiten, ohne Daten zu verlieren

Kontextfenster-Limits brechen produktive KI-Systeme. Lernen Sie drei konkrete Techniken, um lange Dokumente und Konversationen zu verarbeiten, ohne Daten zu verlieren oder API-Kosten zu sprengen.

· 4 min read
KI-Agenten entwickeln: Architekturmuster, Tool-Aufrufe und Speichermanagement
Learning Lab

KI-Agenten entwickeln: Architekturmuster, Tool-Aufrufe und Speichermanagement

Erfahren Sie, wie Sie produktionsreife KI-Agenten entwickeln, indem Sie Tool-Aufruf-Verträge beherrschen, Agentenschleifen korrekt strukturieren und den Speicher in Sitzungs-, Wissens- und Ausführungsebenen aufteilen. Enthält funktionierende Python-Codebeispiele.

· 5 min read
LLMs mit Tools verbinden: Ein Setup zur Workflow-Automatisierung
Learning Lab

LLMs mit Tools verbinden: Ein Setup zur Workflow-Automatisierung

Verbinden Sie ChatGPT, Claude und Gemini mit Slack, Notion und Sheets über APIs und Automatisierungsplattformen. Lernen Sie die Kompromisse zwischen den Modellen kennen, erstellen Sie einen funktionierenden Slack-Bot und automatisieren Sie noch heute Ihren ersten Workflow.

· 5 min read

More from Prompt & Learn

Surfer vs. Ahrefs AI vs. SEMrush: Welches Tool rankt Inhalte am besten?
AI Tools Directory

Surfer vs. Ahrefs AI vs. SEMrush: Welches Tool rankt Inhalte am besten?

Sie haben drei Stunden damit verbracht, einen 2.500 Wörter langen Artikel zu optimieren. Veröffentlicht. Zwei Wochen gewartet. Rang 47. Der Wettbewerber mit der halben Wortzahl erreichte Platz 3. Der Unterschied war kein Aufwand. Es war das Tooling. Drei KI-gestützte SEO-Plattformen behaupten nun, Ihr Ranking-Problem zu lösen: Surfer, Ahrefs AI und SEMrush. Jedes nutzt Sprachmodelle, um Top-rankende Inhalte zu analysieren, Optimierungslücken aufzudecken und Korrekturen vorzuschlagen. Auf dem Papier lösen sie dasselbe Problem. In der Praxis lösen sie es unterschiedlich – mit unterschiedlichen blinden Flecken, unterschiedlichen Kosten und unterschiedlichen Genauigkeitsraten. Dies ist kein Marketingvergleich. Dies ist, was passiert, wenn Sie alle drei tatsächlich für echte Ranking-Kampagnen nutzen.

· 10 min read
Figma KI vs Canva KI vs Adobe Firefly: Design-Tools im Vergleich
AI Tools Directory

Figma KI vs Canva KI vs Adobe Firefly: Design-Tools im Vergleich

Figma KI, Canva KI und Adobe Firefly verfolgen unterschiedliche Ansätze für generatives Design. Figma priorisiert nahtlose Integration, Canva Geschwindigkeit und Firefly Ausgabequalität. Hier erfahren Sie, welches Tool zu Ihrem tatsächlichen Workflow passt.

· 5 min read
DeepL führt Sprachübersetzung ein. Was sich für Teams ändert
AI Tools Directory

DeepL führt Sprachübersetzung ein. Was sich für Teams ändert

DeepL kündigte Echtzeit-Sprachübersetzung für Zoom und Microsoft Teams an. Im Gegensatz zu bestehenden Lösungen baut es auf DeepLs Stärke bei der Textübersetzung auf – direkte Übersetzungsmodelle mit geringerer Latenz. Hier erfahren Sie, warum das wichtig ist und wo es an seine Grenzen stößt.

· 3 min read
10 kostenlose KI-Tools, die sich 2026 wirklich bezahlt machen
AI Tools Directory

10 kostenlose KI-Tools, die sich 2026 wirklich bezahlt machen

Zehn kostenlose KI-Tools, die 2026 tatsächlich bezahlte SaaS ersetzen: Claude, Perplexity, Llama 3.2, DeepSeek R1, GitHub Copilot, OpenRouter, HuggingFace, Jina, Playwright und Mistral. Jedes über reale Arbeitsabläufe getestet mit realistischen Ratenlimits, Genauigkeitsbenchmarks und Kostenvergleichen.

· 6 min read
Copilot vs Cursor vs Windsurf: Welcher IDE-Assistent funktioniert wirklich?
AI Tools Directory

Copilot vs Cursor vs Windsurf: Welcher IDE-Assistent funktioniert wirklich?

Drei Coding-Assistenten dominieren 2026. Copilot bleibt sicher für Unternehmen. Cursor gewinnt bei den meisten Entwicklern durch Geschwindigkeit und Genauigkeit. Windsurfs Agentenmodus führt tatsächlich Code aus, um Halluzinationen zu verhindern. Hier erfahren Sie, wie Sie wählen.

· 5 min read
KI-Tools, die Ihnen wirklich Stunden pro Woche sparen
AI Tools Directory

KI-Tools, die Ihnen wirklich Stunden pro Woche sparen

Ich habe 30 KI-Produktivitätstools für Schreiben, Programmieren, Recherche und Betrieb getestet. Nur 8 haben tatsächlich messbare Zeit gespart. Hier sind die Tools mit echtem ROI, die Workflows, in denen sie punkten, und warum die meisten „KI-Produktivitätstools“ versagen.

· 12 min read

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies. No noise, only signal.

Follow Prompt Builder Prompt Builder