Skip to content
Learning Lab · 6 min read

KI-Halluzinationen: Warum LLMs Fakten erfinden und wie man sie stoppt

Entdecken Sie, warum KI-Sprachmodelle halluzinieren – Fakten und Referenzen erfinden – und lernen Sie 7 evidenzbasierte Techniken kennen, um falsche Informationen aus Ihren KI-Ausgaben zu eliminieren, einschließlich Retrieval-Augmented Generation, Verifizierungs-Prompting und Temperaturanpassungen.

AI Hallucinations: Why LLMs Make Things Up & How to Stop It

Was sind KI-Halluzinationen und warum sie wichtig sind

Sie fragen ChatGPT nach einer Forschungsarbeit, und es zitiert selbstbewusst eine Studie, die nicht existiert. Sie fordern Code von Claude an, und es verweist auf eine Bibliotheksfunktion, die nie veröffentlicht wurde. Das ist eine KI-Halluzination – wenn ein Sprachmodell falsche, erfundene oder unsinnige Informationen mit völliger Überzeugung präsentiert.

Im Gegensatz zu einem Menschen, der vielleicht sagen würde „Ich bin mir nicht sicher“, verfügen LLMs über keinen eingebauten Mechanismus, um zwischen dem, was sie aus den Trainingsdaten gelernt haben, und dem, was sie erfunden haben, zu unterscheiden. Sie funktionieren, indem sie das nächste statistisch wahrscheinliche Wort vorhersagen, nicht indem sie Fakten überprüfen. Diese grundlegende Architektur macht Halluzinationen nicht zu einem Fehler, sondern zu einer Eigenschaft der Funktionsweise dieser Modelle.

Zu verstehen, warum Halluzinationen auftreten, ist entscheidend, da Sie ihnen ständig begegnen werden. Eine Studie aus dem Jahr 2023 ergab, dass selbst fortgeschrittene Modelle wie GPT-4 bei faktischen Aufgaben in etwa 3-5 % der Ausgaben halluzinieren – und diese Rate steigt erheblich, wenn Modelle in spezialisierte Bereiche oder aktuelle Ereignisse vordringen, für die sie nicht trainiert wurden.

Die drei Hauptgründe, warum LLMs Informationen erfinden

1. Trainingsdaten haben Lücken und Grenzen

LLMs werden mit Textdaten trainiert, die einen festen Wissensstichtag haben. Das Training von GPT-4 endete im April 2023. Claude 3 hat einen Wissensstichtag Anfang 2024. Alles, was über dieses Datum hinausgeht, existiert nicht in den Trainingsdaten des Modells. Wenn Sie nach aktuellen Ereignissen fragen, überspringt das Modell die Frage nicht – es füllt die Lücke, indem es plausibel klingenden Text basierend auf gelernten Mustern generiert. Es rät im Grunde und tut dies selbstbewusst.

Neben zeitlichen Lücken gibt es auch Domänenlücken. Ihr LLM verfügt möglicherweise über minimale Trainingsdaten zu Nischenthemen wie obskuren chemischen Verbindungen oder neuen medizinischen Verfahren. Auf Nachfrage synthetisiert es etwas, das vernünftig klingt, aber vollständig erfunden sein kann.

2. Wie die Transformer-Architektur Halluzinationen ermöglicht

Die Transformer-Architektur, die alle modernen LLMs antreibt, funktioniert, indem sie Wahrscheinlichkeiten für das nächste Token (Wortsegment) basierend auf dem Kontext vorhersagt. Bei jedem Schritt wählt das Modell das statistisch wahrscheinlichste nächste Wort. Dies funktioniert hervorragend für die Erzeugung kohärenter Texte, erzeugt aber einen kritischen Fehler: Das Modell hat keine Möglichkeit zu überprüfen, ob der generierte Text tatsächlich der Realität entspricht.

Stellen Sie es sich wie die Autovervollständigung auf Ihrem Telefon vor, aber auf Absatzlänge skaliert mit viel mehr Parametern. Ihr Telefon schlägt das nächste Wort basierend auf Mustern vor – es überprüft keine Fakten. LLMs tun das auch nicht. Sie sind Wahrscheinlichkeits-Engines, keine Wissensabrufsysteme.

3. Vertrauen ohne Überprüfung

LLMs optimieren für flüssige, kohärente Ausgaben. Eine gut geschriebene Lüge liest sich besser als ein vorsichtiges „Ich weiß es nicht“. Das Modell hat gelernt, dass selbstbewusste, vollständige Antworten während des Trainings belohnt werden. Es gibt keine Strafe während der Inferenz für das Erfinden von etwas, nur für die Produktion inkohärenter oder abgekürzter Texte.

Halluzinationen in realen Ausgaben erkennen

Bevor Sie Halluzinationen reduzieren können, müssen Sie sie erkennen. Hier sind konkrete Muster, auf die Sie achten sollten:

  • Spezifische Zitate, die echt klingen, aber nicht existieren: „Laut Smith et al. (2021) im Journal of Neural Networks…“ (vor dem Vertrauen überprüfen)
  • Fiktive Zitate, die echten Personen zugeschrieben werden: Ein LLM, das ein Mark Twain-Zitat erfindet, das es aus dem Training „erinnert“ hat
  • Erfundene technische Details: Funktionsnamen, Bibliotheksversionen oder API-Parameter, die nicht existieren
  • Selbstbewusste Antworten zu Themen ohne Trainingsdaten: Fragen zu Ereignissen nach dem Wissensstichtag
  • Logische Inkonsistenzen: Sich innerhalb derselben Antwort widersprechen und dann bei Nachfragen darauf beharren

Die gefährlichsten Halluzinationen sind die plausiblen. Eine seltsame, eindeutig falsche Antwort ist leicht zu erkennen. Eine Antwort, die genau so klingt, wie etwas, das ein echter Experte sagen würde, ist viel schwieriger zu entlarven.

Sieben bewährte Techniken zur Reduzierung von Halluzinationen

1. Retrieval-Augmented Generation (RAG) verwenden

Anstatt sich ausschließlich auf die Trainingsdaten des Modells zu verlassen, geben Sie ihm Zugang zu verifizierten Quellen. Sie können RAG implementieren, indem Sie relevante Dokumente, Websuchergebnisse oder Wissensdatenbanken bereitstellen, bevor Sie Ihre Frage stellen.

Beispiel-Prompt mit Verankerung:

You have access to the following company handbook:

[INSERT HANDBOOK TEXT HERE]

Based ONLY on the handbook above, answer this question:
What is the vacation policy for employees?

Dies reduziert Halluzinationen drastisch, da das Modell auf Referenzmaterial beschränkt ist, das Sie kontrollieren. Tools wie Pinecone, Weaviate oder LangChain machen die Implementierung von RAG praktikabel.

2. Quellen anfordern und um Überprüfung bitten

Ändern Sie Ihre Prompt-Strategie. Anstatt nach Antworten zu fragen, fragen Sie nach Antworten mit angehängten Quellen.

Find information about [topic]. For each claim, include:
- The specific claim
- Where you found it (be precise: publication, date, author)
- A quote if possible

If you cannot verify a claim from your training data, say so explicitly.

Diese einfache Änderung macht das Modell vorsichtiger und liefert Ihnen Material zur Faktenprüfung.

3. „Ich weiß es nicht“-Prompting verwenden

Trainieren Sie Ihr Modell (durch Beispiele im Prompt), dass es akzeptabel und manchmal besser ist, „Ich weiß es nicht“ zu sagen, als zu raten.

Examples of good responses:
Q: What happened on March 15, 2024?
A: I don't have training data beyond April 2023, so I cannot answer this.

Q: What does the function xyz_convert_3.2() do?
A: I'm not aware of a function with that exact name.

Now, answer this question following the pattern above:
Q: [YOUR QUESTION]

4. Konsistenzprüfungen implementieren

Stellen Sie dem Modell dieselbe Frage auf mehrere Arten oder mehrmals und vergleichen Sie dann die Antworten. Wenn Sie widersprüchliche Antworten erhalten, ist das ein Warnsignal für eine Halluzination.

5. Domänenbeschränkungen hinzufügen

Beschränken Sie den Anwendungsbereich des Modells auf das, was es gut kennt. Wenn Sie mit Code arbeiten, geben Sie die Programmiersprache und Bibliotheksversionen explizit an:

You are an expert in Python 3.11 using FastAPI 0.104.1.
Answer only questions about these specific versions.
If asked about versions outside this range, refuse to answer.

6. Temperatur- und Top-K-Anpassungen verwenden

Niedrigere Temperatureinstellungen (0,3-0,5) machen Modelle konservativer und deterministischer, wodurch kreative Halluzinationen reduziert werden. Höhere Temperaturen (0,7+) erhöhen das Halluzinationsrisiko. Für faktische Aufgaben verwenden Sie niedrigere Temperaturen:

temperature = 0.3  # Conservative, fewer hallucinations
max_tokens = 500
top_p = 0.9

7. Querverweis mit externen Tools

Für Code: Führen Sie ihn aus. Für Fakten: Suchen Sie im Web. Für Berechnungen: Überprüfen Sie mit Python. Akzeptieren Sie die LLM-Ausgabe nicht als absolute Wahrheit für irgendetwas Wichtiges.

Probieren Sie es jetzt aus: Erstellen Sie einen Workflow zur Faktenprüfung

Hier ist ein praktischer Workflow, den Sie heute implementieren können:

  1. Stellen Sie Ihrem LLM eine faktische Frage und fordern Sie Quellen an
  2. Kopieren Sie alle Zitate oder Behauptungen in eine Suchmaschine oder Ihre Wissensdatenbank
  3. Markieren Sie jede Behauptung als „verifiziert“, „unverifiziert“ oder „falsch“
  4. Geben Sie dieses Feedback an das Modell zurück: „Die folgenden Behauptungen waren Halluzinationen: [Liste]. Überarbeiten Sie Ihre Antwort nur mit verifizierten Informationen.“
  5. Vergleichen Sie die überarbeitete Antwort mit der ursprünglichen

Wiederholen Sie diesen Zyklus ein paar Mal, und Sie werden ein Gefühl dafür entwickeln, wo ein bestimmtes Modell dazu neigt zu halluzinieren.

Wichtige Erkenntnisse

  • Halluzinationen sind keine zufälligen Fehler – sie sind ein direktes Ergebnis der Funktionsweise von Transformatoren: Sie sagen statistisch wahrscheinlichen Text voraus, ohne Fakten zu überprüfen
  • Verwenden Sie Retrieval-Augmented Generation (RAG), um Modelle in verifizierten Quellen zu verankern, anstatt sich ausschließlich auf Trainingsdaten zu verlassen
  • Fordern Sie Quellen an, bitten Sie um „Ich weiß es nicht“-Antworten und überprüfen Sie wichtige Behauptungen durch externe Faktenprüfung
  • Niedrigere Temperatureinstellungen (0,3-0,5) reduzieren Halluzinationen bei faktischen Aufgaben, indem sie Modelle konservativer machen
  • Integrieren Sie die Verifizierung in Ihren Workflow – akzeptieren Sie niemals kritische Informationen von einem LLM ohne Querverweis
  • Verschiedene Modelle halluzinieren unterschiedlich; testen Sie Ihr spezifisches Modell in Ihrem spezifischen Bereich, um seine Fehlermodi zu verstehen
Batikan
· 6 min read
Topics & Keywords
Learning Lab sie die und das nicht auf das modell indem sie
Share

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies.

Related Articles

Professionelle Logos mit Midjourney erstellen: Schritt für Schritt zu Marken-Assets
Learning Lab

Professionelle Logos mit Midjourney erstellen: Schritt für Schritt zu Marken-Assets

Midjourney generiert Logo-Konzepte in Sekundenschnelle – aber professionelle Marken-Assets erfordern spezifische Prompt-Strukturen, iterative Verfeinerung und Vektor-Konvertierung. Diese Anleitung zeigt den exakten Workflow, der produktionsreife Logos erzeugt.

· 5 min read
Claude vs. ChatGPT vs. Gemini: Wählen Sie die richtige LLM für Ihren Workflow
Learning Lab

Claude vs. ChatGPT vs. Gemini: Wählen Sie die richtige LLM für Ihren Workflow

Claude, ChatGPT und Gemini eignen sich jeweils für unterschiedliche Aufgaben. Dieser Leitfaden analysiert reale Leistungsunterschiede, Halluzinationsraten, Kosten und spezifische Workflows, bei denen jedes Modell glänzt – mit konkreten Prompts, die Sie sofort verwenden können.

· 4 min read
Erstellen Sie Ihren ersten KI-Agenten ohne Code
Learning Lab

Erstellen Sie Ihren ersten KI-Agenten ohne Code

Erstellen Sie Ihren ersten funktionierenden KI-Agenten ohne Code oder API-Kenntnisse. Lernen Sie die drei Agentenarchitekturen kennen, vergleichen Sie Plattformen und durchlaufen Sie ein echtes Beispiel für die E-Mail-Triage und CRM-Abfrage – von der Einrichtung bis zur Bereitstellung.

· 14 min read
Kontextfenstermanagement: Lange Dokumente verarbeiten, ohne Daten zu verlieren
Learning Lab

Kontextfenstermanagement: Lange Dokumente verarbeiten, ohne Daten zu verlieren

Kontextfenster-Limits brechen produktive KI-Systeme. Lernen Sie drei konkrete Techniken, um lange Dokumente und Konversationen zu verarbeiten, ohne Daten zu verlieren oder API-Kosten zu sprengen.

· 4 min read
KI-Agenten entwickeln: Architekturmuster, Tool-Aufrufe und Speichermanagement
Learning Lab

KI-Agenten entwickeln: Architekturmuster, Tool-Aufrufe und Speichermanagement

Erfahren Sie, wie Sie produktionsreife KI-Agenten entwickeln, indem Sie Tool-Aufruf-Verträge beherrschen, Agentenschleifen korrekt strukturieren und den Speicher in Sitzungs-, Wissens- und Ausführungsebenen aufteilen. Enthält funktionierende Python-Codebeispiele.

· 5 min read
LLMs mit Tools verbinden: Ein Setup zur Workflow-Automatisierung
Learning Lab

LLMs mit Tools verbinden: Ein Setup zur Workflow-Automatisierung

Verbinden Sie ChatGPT, Claude und Gemini mit Slack, Notion und Sheets über APIs und Automatisierungsplattformen. Lernen Sie die Kompromisse zwischen den Modellen kennen, erstellen Sie einen funktionierenden Slack-Bot und automatisieren Sie noch heute Ihren ersten Workflow.

· 5 min read

More from Prompt & Learn

Surfer vs. Ahrefs AI vs. SEMrush: Welches Tool rankt Inhalte am besten?
AI Tools Directory

Surfer vs. Ahrefs AI vs. SEMrush: Welches Tool rankt Inhalte am besten?

Sie haben drei Stunden damit verbracht, einen 2.500 Wörter langen Artikel zu optimieren. Veröffentlicht. Zwei Wochen gewartet. Rang 47. Der Wettbewerber mit der halben Wortzahl erreichte Platz 3. Der Unterschied war kein Aufwand. Es war das Tooling. Drei KI-gestützte SEO-Plattformen behaupten nun, Ihr Ranking-Problem zu lösen: Surfer, Ahrefs AI und SEMrush. Jedes nutzt Sprachmodelle, um Top-rankende Inhalte zu analysieren, Optimierungslücken aufzudecken und Korrekturen vorzuschlagen. Auf dem Papier lösen sie dasselbe Problem. In der Praxis lösen sie es unterschiedlich – mit unterschiedlichen blinden Flecken, unterschiedlichen Kosten und unterschiedlichen Genauigkeitsraten. Dies ist kein Marketingvergleich. Dies ist, was passiert, wenn Sie alle drei tatsächlich für echte Ranking-Kampagnen nutzen.

· 10 min read
Figma KI vs Canva KI vs Adobe Firefly: Design-Tools im Vergleich
AI Tools Directory

Figma KI vs Canva KI vs Adobe Firefly: Design-Tools im Vergleich

Figma KI, Canva KI und Adobe Firefly verfolgen unterschiedliche Ansätze für generatives Design. Figma priorisiert nahtlose Integration, Canva Geschwindigkeit und Firefly Ausgabequalität. Hier erfahren Sie, welches Tool zu Ihrem tatsächlichen Workflow passt.

· 5 min read
DeepL führt Sprachübersetzung ein. Was sich für Teams ändert
AI Tools Directory

DeepL führt Sprachübersetzung ein. Was sich für Teams ändert

DeepL kündigte Echtzeit-Sprachübersetzung für Zoom und Microsoft Teams an. Im Gegensatz zu bestehenden Lösungen baut es auf DeepLs Stärke bei der Textübersetzung auf – direkte Übersetzungsmodelle mit geringerer Latenz. Hier erfahren Sie, warum das wichtig ist und wo es an seine Grenzen stößt.

· 3 min read
10 kostenlose KI-Tools, die sich 2026 wirklich bezahlt machen
AI Tools Directory

10 kostenlose KI-Tools, die sich 2026 wirklich bezahlt machen

Zehn kostenlose KI-Tools, die 2026 tatsächlich bezahlte SaaS ersetzen: Claude, Perplexity, Llama 3.2, DeepSeek R1, GitHub Copilot, OpenRouter, HuggingFace, Jina, Playwright und Mistral. Jedes über reale Arbeitsabläufe getestet mit realistischen Ratenlimits, Genauigkeitsbenchmarks und Kostenvergleichen.

· 6 min read
Copilot vs Cursor vs Windsurf: Welcher IDE-Assistent funktioniert wirklich?
AI Tools Directory

Copilot vs Cursor vs Windsurf: Welcher IDE-Assistent funktioniert wirklich?

Drei Coding-Assistenten dominieren 2026. Copilot bleibt sicher für Unternehmen. Cursor gewinnt bei den meisten Entwicklern durch Geschwindigkeit und Genauigkeit. Windsurfs Agentenmodus führt tatsächlich Code aus, um Halluzinationen zu verhindern. Hier erfahren Sie, wie Sie wählen.

· 5 min read
KI-Tools, die Ihnen wirklich Stunden pro Woche sparen
AI Tools Directory

KI-Tools, die Ihnen wirklich Stunden pro Woche sparen

Ich habe 30 KI-Produktivitätstools für Schreiben, Programmieren, Recherche und Betrieb getestet. Nur 8 haben tatsächlich messbare Zeit gespart. Hier sind die Tools mit echtem ROI, die Workflows, in denen sie punkten, und warum die meisten „KI-Produktivitätstools“ versagen.

· 12 min read

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies. No noise, only signal.

Follow Prompt Builder Prompt Builder