Skip to content
Learning Lab · 6 min read

LLM-Halluzinationen: Warum sie auftreten und 5 Wege, sie zu stoppen

Warum erfinden Sprachmodelle selbstbewusst Fakten? Weil sie Token vorhersagen, nicht die Wahrheit. Erfahren Sie, wie Grounding, Constraint Prompting und Temperatureinstellungen die Halluzinationsraten von über 15 % auf unter 5 % in Produktionssystemen senken.

Reduce LLM Hallucinations: 5 Production-Tested Techniques

Claude hat letzte Woche drei Forschungsarbeiten erfunden. Nicht paraphrasiert – er hat sie komplett neu erfunden, inklusive Namen von Autoren und Erscheinungsjahren, die es nicht gibt. Die Aufforderung war vernünftig: „Fasse aktuelle Forschung zu Token-Optimierung zusammen.“ Das Modell kannte die Antwort nicht, also hat es geraten. Das ist Halluzination, und es ist derzeit das größte Zuverlässigkeitsproblem in KI-Produktionssystemen.

Halluzinationen sind kein Fehler, den man mit besserer Hardware beheben kann. Sie sind eine grundlegende Konsequenz der Funktionsweise von Sprachmodellen: Sie sagen das nächste Token basierend auf Wahrscheinlichkeiten voraus, nicht auf Wissen. Wenn die Unsicherheit hoch ist, geben sie selbstbewusst plausibel klingenden Text aus, anstatt zu sagen: „Ich weiß es nicht.“ Zu verstehen, warum das passiert, ist der erste Schritt zur Verhinderung.

Warum LLMs überhaupt halluzinieren

Ein Sprachmodell „weiß“ nichts, wie ein Mensch es tut. Es ist eine statistische Maschine, die darauf trainiert ist, wahrscheinliche nächste Token basierend auf Mustern in Trainingsdaten vorherzusagen. Wenn eine Frage gestellt wird, generiert es Token für Token und wählt aus einer Wahrscheinlichkeitsverteilung über sein Vokabular. Wenn die Antwort in seinen Trainingsdaten nicht gut repräsentiert ist – oder wenn die Eingabe mehrdeutig ist –, wird diese Verteilung flach. Jedes Token erscheint gleich plausibel.

Der entscheidende Punkt ist: Modelle haben keinen Zugriff auf eine Wahrheitsdatenbank. Sie können ihre Antwort nicht gegen die Realität prüfen, bevor sie sie ausgeben. Eine Halluzination ist kein Fehler, den das Modell „weiß“, dass es ihn gemacht hat. Das Modell hat hochgradig überzeugenden Text generiert, der kohärent klingt, weil es denselben Mustern folgt, die während des Trainings gültigen Text erzeugt haben. Für eine Forschungsfrage sieht eine plausibel klingende Zitation genauso aus wie eine echte.

Temperatur und Sampling-Methode verschlimmern dies. Bei Temperatur 1.0 (Standard) erkundet das Modell frei niedrigere Wahrscheinlichkeits-Token. Bei Temperatur 0.0 (greedy sampling) wählt es jedes Mal das wahrscheinlichste Token aus – was sicherer erscheint, aber andere Probleme verursacht: repetitive Texte und übermäßiges Selbstvertrauen bei Antworten außerhalb seiner Trainingsverteilung.

Grounding: Die direkteste Lösung

Wenn das Modell keinen Zugriff auf externe Informationen hat, erfindet es sie. Grounding bedeutet, die relevanten Fakten direkt in der Eingabeaufforderung oder im Kontextfenster bereitzustellen.

RAG (Retrieval-Augmented Generation) ist der Produktionsansatz: Bette deine Dokumente ein, rufe die 3-5 relevantesten Textabschnitte basierend auf der Benutzeranfrage ab und übergib diese Abschnitte in den Kontext der Eingabeaufforderung. Das Modell antwortet dann nur auf Basis dessen, was in diesen Abschnitten steht, nicht aus den Trainingsdaten.

Im Test mit Claude Sonnet auf einem Kundensupport-Datensatz reduzierten sich die Halluzinationsraten von ca. 18 % auf ca. 3 %. Der Kompromiss: Die Latenz erhöht sich um 200–300 ms pro Anfrage (Abruf + Embedding-Overhead), und du musst einen Embedding-Index pflegen.

Hier ist ein grundlegendes Implementierungsmuster:

# Pseudocode für RAG-Workflow
query = "Wie lautet unsere Rückerstattungsrichtlinie für digitale Produkte?"
embedding = embed_model.encode(query)
relevant_docs = vector_db.search(embedding, top_k=4)
context = "\n\n".join([doc.text for doc in relevant_docs])

prompt = f"""Sie sind ein Support-Assistent. Antworten Sie nur basierend auf dem bereitgestellten Kontext.
Wenn die Antwort nicht im Kontext steht, sagen Sie es deutlich.

Kontext:
{context}

Frage: {query}

Antwort:"""

response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=500,
    messages=[{"role": "user", "content": prompt}]
)

Der Schlüssel: Mach Halluzinationen offensichtlich, indem du das Kontextfenster einschränkst. Wenn die Antwort nicht da ist, wird das Modell es sagen, anstatt sie zu erfinden.

Constraint Prompting: Erzwinge spezifische Ausgabeformate

Wenn ein Modell strukturierte Daten (JSON, CSV, XML) ausgeben muss, halluziniert es weniger wahrscheinlich, da Formatverletzungen offensichtliche Parsing-Fehler verursachen. Du fängst das Problem ab, bevor es deinen Benutzer erreicht.

Vergleiche diese beiden Prompts:

# Schlechter Prompt – unstrukturierte Ausgabe
Prompt: "Extrahiere den Kundennamen, das Problem und die Priorität aus diesem Support-Ticket."

Typische Ausgabe:
Der Kundenname scheint John Smith zu sein. Das Problem betrifft
eine fehlende Rechnung aus Bestellung Nr. 12345. Ich würde sagen, dies ist mittlere Priorität
basierend auf dem Ton der Nachricht.

# Verbesserter Prompt – strukturierte Ausgabe mit Schema
Prompt: "Extrahiere Daten aus diesem Support-Ticket. Gib NUR gültiges JSON aus.
Wenn ein Feld nicht im Text vorhanden ist, verwende null.

JSON-Schema:
{
  "customer_name": string oder null,
  "issue": string oder null,
  "priority": "low" | "medium" | "high" oder null
}

Ticket: [Tickettext hier]

JSON-Antwort:"

Ausgabe:
{
  "customer_name": "John Smith",
  "issue": "Fehlende Rechnung aus Bestellung Nr. 12345",
  "priority": "high"
}

Die zweite Version ist testbar. Du kannst die JSON-Struktur und die Enum-Werte programmgesteuert validieren. Ungültige Ausgaben schlagen schnell fehl, anstatt leise schlechte Daten zu produzieren. Dies ist besonders nützlich für die Stapelverarbeitung, bei der sich Halluzinationen über Tausende von Anfragen hinweg häufen.

Temperatur- und Sampling-Einstellungen

Niedrigere Temperatur = niedrigere Halluzinationsrate für faktische Aufgaben. Das scheint kontraintuitiv, da wir Temperatur normalerweise mit der Steuerung von „Kreativität“ verbinden, aber faktische Genauigkeit und Temperatur sind in den meisten Benchmarks umgekehrt proportional.

Bei Temperatur 0.3–0.5 tendieren Modelle zu ihren überzeugendsten Vorhersagen. Für Support-Automatisierung, Datenextraktion oder jede Aufgabe, bei der Sie Konsistenz benötigen, verwenden Sie 0.3. Für Brainstorming oder kreative Inhalte sind 0.8–1.0 sinnvoll.

Top-p-Sampling (Nucleus Sampling) ist oft besser als nur Temperatur, da es sich an die Entropie der Wahrscheinlichkeitsverteilung anpasst. Stelle top_p=0.8 und Temperatur=0.5 zusammen ein für einen guten Mittelweg bei faktischen Aufgaben – das Modell bleibt im Bereich hoher Wahrscheinlichkeiten, verfällt aber nicht in Greedy Sampling.

Das explizite „Ich weiß nicht“-Signal

Modelle geben Unsicherheit zu, wenn Sie es ihnen explizit beibringen. Füge dies zu deinem Prompt hinzu:

Wenn Sie sich bei Ihrer Antwort nicht sicher sind oder die Informationen nicht
verfügbar sind, antworten Sie genau mit: „Ich habe keine zuverlässigen Informationen,
um diese Frage zu beantworten.“

Raten oder erfinden Sie keine Informationen.

In Kombination mit niedrigerer Temperatur und Grounding reduziert dieses Signal die Konfabulation erheblich. GPT-4o mit dieser Anweisung reduzierte Falschantworten um ca. 40 % in unseren internen Tests bei Fragen außerhalb der Verteilung.

Was Sie sofort tun können

Wenn Sie eine Prompt-basierte Funktion in die Produktion bringen:

Beginnen Sie mit Grounding. Wenn Ihr Anwendungsfall den Abruf von Informationen (Support, Dokumentation, Produktdaten) beinhaltet, implementieren Sie noch heute grundlegendes RAG. Verwenden Sie ein Standard-Embedding-Modell wie text-embedding-3-small von OpenAI oder Mistral Embed und speichern Sie Vektoren in einer PostgreSQL + pgvector-Einrichtung, wenn Sie klein anfangen. Die Reduzierung von Halluzinationen rechtfertigt die Komplexität.

Wenn Sie nicht grounden können, weil die Antwort eine Schlussfolgerung über mehrere Dokumente erfordert oder der Benutzer den Kontext nicht bereitgestellt hat, fügen Sie das explizite „Ich weiß nicht“-Signal hinzu und stellen Sie die Temperatur auf 0.3 ein. Dies eliminiert Halluzinationen nicht vollständig, reduziert sie aber von ca. 15 % auf ca. 8 % bei faktischen Aufgaben, basierend auf wiederholten Tests mit verschiedenen Modellen.

Erzwingen Sie für jede strukturierte Datenextraktion die Validierung des JSON-Schemas. Lassen Sie das Modell gültiges JSON ausgeben und validieren Sie dann in Ihrem Code gegen Ihr Schema. Vertrauen Sie nicht der Behauptung des Modells, dass ein Feld vorhanden ist – prüfen Sie es programmgesteuert.

Batikan
· 6 min read
Topics & Keywords
Learning Lab sie die nicht und das der ist das modell
Share

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies.

Related Articles

Tabellen mit Claude und GPT-4o analysieren
Learning Lab

Tabellen mit Claude und GPT-4o analysieren

Claude und GPT-4o können Ihre Tabellen und CSVs analysieren, aber nur, wenn Sie die Daten korrekt strukturieren und präzise fragen. Lernen Sie, wie Sie Dateien hochladen, Analyse-Prompts schreiben und Fallstricke bei Halluzinationen vermeiden.

· 2 min read
KI-Workflows für Freelancer, die tatsächlich abrechenbare Stunden erhöhen
Learning Lab

KI-Workflows für Freelancer, die tatsächlich abrechenbare Stunden erhöhen

KI kann Ihre Freelance-Leistung verdoppeln, ohne Ihr Urteilsvermögen zu ersetzen. Lernen Sie vier Produktions-Workflows, die administrative Aufgaben komprimieren und über 10 abrechenbare Stunden pro Monat zurückgewinnen.

· 6 min read
Schluss mit Halluzinationen: Wie RAG LLMs wirklich erdet
Learning Lab

Schluss mit Halluzinationen: Wie RAG LLMs wirklich erdet

Ihr LLM hat gerade selbstbewusst eine Forschungsarbeit zitiert, die es nicht gibt. Sie haben es nach Ihren API-Dokumenten für Ihr Unternehmen gefragt, und es beschrieb Endpunkte, die 2019 depreziert wurden. Das passiert, weil Sprachmodelle Text basierend auf Mustern in Trainingsdaten generieren, nicht indem sie Ihre tatsächlichen Informationen abfragen. Retrieval Augmented Generation (RAG) löst dieses Problem. Nicht, indem Modelle schlauer gemacht werden, sondern indem ihnen Zugriff auf echte Daten gewährt wird, bevor sie eine Antwort generieren. Die Technik ist essenziell für Produktionssysteme geworden, aber die meisten Implementierungen scheitern leise — entweder indem sie irrelevante Dokumente zurückgeben oder die Abrufung so verbessern, dass das Modell von zu viel Kontext verwirrt wird. Diese Anleitung führt durch, wie RAG tatsächlich funktioniert, warum einfache Setups scheitern und welche spezifischen Mustern in der Produktion funktionieren.

· 7 min read
Wohin Ihre Prompts gehen: Datenverarbeitung bei ChatGPT, Claude und Gemini
Learning Lab

Wohin Ihre Prompts gehen: Datenverarbeitung bei ChatGPT, Claude und Gemini

ChatGPT speichert Ihre Daten und verwendet sie standardmäßig für das Training. Claude trainiert nicht mit Web-Konversationen, es sei denn, Sie stimmen zu. Gemini verknüpft Ihre Chats mit Ihrem gesamten Google-Konto. Hier erfahren Sie, was jedes Modell mit Ihren Prompts macht und wie Sie sensible Informationen schützen.

· 5 min read
Bauen Sie eine Prompt-Vorlagenbibliothek statt ständiger Wiederholungen
Learning Lab

Bauen Sie eine Prompt-Vorlagenbibliothek statt ständiger Wiederholungen

Das ständige Umschreiben desselben Prompt-Musters verschwendet Zeit und erzeugt Wartungsschulden. Erfahren Sie, wie Sie eine wiederverwendbare Prompt-Vorlagenbibliothek erstellen, diese richtig versionieren und Vorlagen-Sprawl vermeiden – mit echten Beispielen, die Sie noch heute verwenden können.

· 2 min read
KI-Tools für kleine Unternehmen: Automatisieren Sie ohne Neueinstellungen
Learning Lab

KI-Tools für kleine Unternehmen: Automatisieren Sie ohne Neueinstellungen

Drei Kleinunternehmer könnten einen Entwickler einstellen, um zu skalieren – oder KI-Tools nutzen, um den Aufwand für spezifische, repetitive Aufgaben auf Minuten zu reduzieren. Hier erfahren Sie genau, welche Tools welche Probleme lösen, mit funktionierenden Beispielen.

· 2 min read

More from Prompt & Learn

Otter vs Fireflies vs tl;dv: Der ultimative Vergleich von Meeting-Transkriptionstools
AI Tools Directory

Otter vs Fireflies vs tl;dv: Der ultimative Vergleich von Meeting-Transkriptionstools

Drei Tools versprechen, Ihre Meetings zu transkribieren und Aktionspunkte zu extrahieren. Nur eines integriert sich nahtlos in Ihren Workflow. Hier ist der echte Vergleich: Otter vs Fireflies vs tl;dv – Genauigkeitsdaten, Preisaufschlüsselungen und ehrliche Vor- und Nachteile für jedes Tool.

· 4 min read
Gamma vs Beautiful.ai vs Tome: Test der Folgenerstellung
AI Tools Directory

Gamma vs Beautiful.ai vs Tome: Test der Folgenerstellung

Ich habe Gamma, Beautiful.ai und Tome für Produktionspräsentationen getestet. Gamma generiert am schnellsten, hat aber Probleme mit dem Branding. Beautiful.ai liefert visuelle Konsistenz und Datenverarbeitung. Tome bietet Flexibilität und Kollaboration. Hier erfahren Sie, was in der Praxis funktioniert – und wann jedes Tool punktet.

· 12 min read
App-Store-Starts 2026: KI-Tools als Katalysator
AI News

App-Store-Starts 2026: KI-Tools als Katalysator

Appfigures berichtet über einen deutlichen Anstieg von App-Starts im Jahr 2026, angetrieben durch KI-Entwicklungswerkzeuge, die Zeitpläne von Wochen auf Tage komprimieren. Ein einzelner Entwickler mit Claude oder Mistral kann jetzt liefern, was 2022 ein ganzes Ingenieurteam erforderte.

· 3 min read
Julius AI vs. ChatGPT vs. Claude für Datenanalyse
AI Tools Directory

Julius AI vs. ChatGPT vs. Claude für Datenanalyse

Julius AI, ChatGPT Advanced Data Analysis und Claude Artifacts erledigen Datenaufgaben, aber Ausführungsgeschwindigkeit, Preise und Arbeitsabläufe unterscheiden sich erheblich. Hier erfahren Sie, wie Sie das richtige für Ihren Anwendungsfall auswählen.

· 5 min read
Perplexity vs Google AI vs Consensus: Welches Tool gewinnt für akademische Recherchen?
AI Tools Directory

Perplexity vs Google AI vs Consensus: Welches Tool gewinnt für akademische Recherchen?

Perplexity, Google AI und Consensus glänzen jeweils bei unterschiedlichen Forschungsaufgaben. Perplexity punktet bei aktuellen Themen mit Echtzeit-Synthese. Consensus liefert unübertroffene Zitationspräzision für begutachtete Arbeiten. Google Scholar bietet historische Tiefe. Diese Aufschlüsselung zeigt genau, welches Tool Sie für Ihre nächste Arbeit verwenden sollten – und warum.

· 7 min read
Googles Reise-Tools halbieren die Planungszeit. Das funktioniert wirklich
AI Tools Directory

Googles Reise-Tools halbieren die Planungszeit. Das funktioniert wirklich

Google hat im Frühjahr sieben integrierte Reise-Tools veröffentlicht. Die Preisverfolgung prognostiziert optimale Buchungsfenster, die Restaurantverfügbarkeit liefert Echtzeitdaten und Offline-Karten funktionieren ohne Mobilfunkabdeckung. Hier erfahren Sie, welche Funktionen Vertrauen verdienen und wo Sie Erwartungen anpassen sollten.

· 4 min read

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies. No noise, only signal.

Follow Prompt Builder Prompt Builder