Learning Lab März 31, 2026 · 4 min read

Warum LLMs halluzinieren und vier Wege, es zu stoppen

Halluzinationen treten auf, weil LLMs Tokens vorhersagen, nicht Fakten abrufen. Erfahren Sie, warum Modelle Dinge erfinden und vier praxiserprobte Techniken, um Fehlerraten zu reduzieren – von Grounding-Prompts bis zu RAG-Implementierungen.

Claude hat letzte Woche drei Zitate generiert. Keines davon existierte. Die Papiertitel klangen plausibel, die Autoren waren echt, aber die Zeitschriften waren erfunden. Das war kein Fehler – es war eine Halluzination, und sie passiert aufgrund der Funktionsweise dieser Modelle.

Halluzinationen treten auf, wenn ein LLM Text generiert, der selbstbewusst klingt, aber der Realität, dem Kontext oder der Anweisung widerspricht. Kein Bug. Nicht unvorhersehbar. Sie sind eine direkte Folge davon, wie Transformer-Modelle Tokens vorhersagen, und sie treten in großem Maßstab bei jedem produktiven Einsatz auf.

Was passiert tatsächlich, wenn ein LLM halluziniert

Sprachmodelle rufen keine Fakten ab. Sie sagen das statistisch wahrscheinlichste nächste Token basierend auf Mustern in den Trainingsdaten voraus. Wenn Sie Claude oder GPT-4o eine Frage stellen, fragt das Modell keine Datenbank ab. Es berechnet Wahrscheinlichkeitsverteilungen über Tausende möglicher Tokens und wählt Gewinner aus, Token für Token, bis es eine Stoppbedingung erreicht.

Das funktioniert für viele Aufgaben hervorragend. Aber wenn das Modell auf einen Prompt stößt, der außerhalb seiner Trainingsdaten liegt – oder bei dem mehrere plausible Fortsetzungen existieren – sagt es nicht „Ich weiß es nicht.“ Es generiert trotzdem das statistisch wahrscheinlichste nächste Token. Dieses Token wird zum Kontext für die nächste Vorhersage. Vertrauen verstärkt sich. Eine Halluzination ist geboren.

Das Problem beschleunigt sich bei längeren Ausgaben. Jedes neue Token hängt von früheren Tokens ab, und wenn frühere Vorhersagen daneben lagen, weicht der nachfolgende Text weiter von der Realität ab. Eine Studie von Anthropic (März 2024) ergab, dass die Fehlerrate von Claude bei sachlichen Fragen ungefähr doppelt so hoch ist, wenn Antworten 2.000 Tokens überschreiten, verglichen mit Antworten unter 500 Tokens.

Temperatur und Zufälligkeit sind nicht die eigentlichen Schuldigen

Die meisten Entwickler geben zunächst den Temperatureinstellungen die Schuld. Niedrigere Temperatur = weniger Halluzinationen, richtig? Teilweise richtig, aber unvollständig. Die Temperatur steuert die Stichprobenzufälligkeit, nicht grundsätzlich die Halluzination. Eine Einstellung der Temperatur auf 0 (deterministischer Modus) verhindert, dass das Modell unwahrscheinliche Tokens auswählt – aber es verhindert nicht, dass es selbstbewusst falsche Aussagen basierend auf hochwahrscheinlichen falschen Entscheidungen generiert.

Das ist die Lücke, die die meisten Anleitungen übersehen. Das Senken der Temperatur reduziert die Variabilität, aber nicht die Genauigkeit. Sie erhalten konsistente Halluzinationen statt zufälliger.

Vier Techniken, die die Halluzinationsrate tatsächlich reduzieren

1. Grounding: Das Modell zwingen, Quellen zu zitieren

Das ist der einfachste Hebel. Wenn Sie vom Modell verlangen, Quellmaterial in seiner Antwort zu zitieren oder zu belegen, sinken die Halluzinationen signifikant – nicht auf Null, aber messbar. Das Modell wird durch das eingeschränkt, was tatsächlich in Ihrer Eingabe vorhanden ist.

Schlechter Prompt:

Fasse die wichtigsten Ergebnisse dieses Forschungsartikels über die Effizienz des maschinellen Lernens zusammen.

[Papiertext hier]

Was passiert: Das Modell generiert Zusammenfassungspunkte, die so klingen, als könnten sie aus dem Papier stammen, erfindet aber möglicherweise Ergebnisse oder schreibt sie falsch zu.

Verbesserter Prompt:

Fasse die wichtigsten Ergebnisse dieses Forschungsartikels zusammen. Zitiere für jedes Ergebnis den genauen Satz aus dem Papier, der es stützt. Wenn ein Punkt nicht direkt im Papier genannt wird, markiere ihn als [ABGELEITET] und erkläre deine Begründung.

[Papiertext hier]

Warum das funktioniert: Das Modell muss seine Ausgabe nun mit dem tatsächlichen Text abgleichen. Es macht immer noch Fehler, aber die Fehlerrate sinkt, da es nicht ohne Verstoß gegen die Zitierpflicht fabulieren kann. In der Praxis reduziert dies die Halluzinationsrate bei Aufgaben zur faktenbasierten Extraktion um 40–60 %.

2. RAG (Retrieval-Augmented Generation): Es suchen lassen, nicht erinnern

Halluzinationen treten oft auf, weil das Modell versucht, aus dem Gedächtnis (Trainingsdaten) zu antworten, wenn es aus dem Kontext antworten sollte. Retrieval-Augmented Generation kehrt dies um: Sie stellen relevante Dokumente vor dem Prompt bereit, und das Modell baut seine Antwort auf dem auf, was tatsächlich vorhanden ist.

Dies erfordert Infrastruktur – eine Vektordatenbank, einen Retriever, eine Chunking-Strategie – ist aber die zuverlässigste Technik für wissensintensive Arbeitsabläufe. Halluzinationsraten bei Abrufsaufgaben mit soliden RAG-Implementierungen liegen bei etwa 5–8 %, verglichen mit 20–30 % ohne Grounding.

Workflow:

Benutzer stellt eine Frage
Retriever durchsucht Ihre Wissensbasis und gibt die 3–5 relevantesten Dokumente zurück
Diese Dokumente werden als Kontext in den Prompt eingefügt
LLM generiert eine Antwort, die auf diesem Kontext basiert
Die Ausgabe zitiert, welche Dokumentenabschnitte die Antwort beeinflusst haben

Der Kompromiss: RAG erhöht die Latenz und erfordert die Pflege von Dokumentquellen. Es schlägt auch still fehl, wenn relevante Dokumente nicht in Ihrer Datenbank vorhanden sind – das Modell halluziniert eine Antwort, anstatt „nicht gefunden“ zu sagen.

3. Eingeschränkte Ausgabeformate

Wenn Sie strukturierte Ausgaben erzwingen – JSON, XML, vordefinierte Kategorien – reduzieren Sie den Raum, in dem Halluzinationen auftreten können. Das Modell kann immer noch Fehler machen, aber es kann keine ganzen Felder erfinden.

Schlechter Prompt:

Extrahiere den Firmennamen, das Gründungsjahr und den CEO aus dieser Pressemitteilung.

[Pressemitteilungstext]

Erwartete (halluzinierte) Ausgabe:

Firma: TechVision Inc
Gründungsjahr: 2015
CEO: Sarah Martinez

Verbesserter Ansatz:

Extrahiere Informationen aus der Pressemitteilung. Gib nur gültiges JSON zurück. Wenn ein Feld im Text nicht erwähnt wird, gib null zurück.
{

📚 Related Articles

Why LLMs Hallucinate and Four Ways to Stop It
Why LLMs Hallucinate and 4 Ways to Stop It
Fine-Tuning LLMs in Production: From Dataset to Serving



            
            
                
                                        
                        Batikan
                        
                            März 31, 2026
                                                        ·
                            4 min read
                        
                    
                
            

            
                                    
                
                    
                    Topics & Keywords                
                
                                            
                            Learning Lab                        
                                                                                    
                            die                        
                                            
                            das modell                        
                                            
                            nicht                        
                                            
                            der                        
                                            
                            sie                        
                                            
                            und                        
                                            
                            aber                        
                                            
                            eine                        
                                    
            
            
            
            
                Share
                
                    
                
                
                    
                
            


            
            
                
                    Stay ahead of the AI curve
                
                Weekly digest of the most impactful AI breakthroughs, tools, and strategies.
                
                    
                                        
                        
                    
                    
                    
                
            

            
            
                                                    
                                                    
                                                            
                                                
                            ← Previous
                            Notion AI vs Mem AI vs Obsidian: Welcher Notiz-App gewinnt?
                        
                    
                                                    
                                                    
                                                            
                                                
                            Next →
                            KI-Agenten entwickeln: Die drei Muster, die wirklich funktionieren



    
        
        
            
                
                Related Articles            
            
                                        
    

                    
                                
            
        
        
                        
                Learning Lab            
            
            
                Professionelle Logos mit Midjourney erstellen: Schritt für Schritt zu Marken-Assets            

            
                Midjourney generiert Logo-Konzepte in Sekundenschnelle – aber professionelle Marken-Assets erfordern spezifische Prompt-Strukturen, iterative Verfeinerung und Vektor-Konvertierung. Diese Anleitung zeigt den exakten Workflow, der produktionsreife Logos erzeugt.            

            
                
                    Apr. 16, 2026
                    ·
                    5 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                Learning Lab            
            
            
                Claude vs. ChatGPT vs. Gemini: Wählen Sie die richtige LLM für Ihren Workflow            

            
                Claude, ChatGPT und Gemini eignen sich jeweils für unterschiedliche Aufgaben. Dieser Leitfaden analysiert reale Leistungsunterschiede, Halluzinationsraten, Kosten und spezifische Workflows, bei denen jedes Modell glänzt – mit konkreten Prompts, die Sie sofort verwenden können.            

            
                
                    Apr. 16, 2026
                    ·
                    4 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                Learning Lab            
            
            
                Erstellen Sie Ihren ersten KI-Agenten ohne Code            

            
                Erstellen Sie Ihren ersten funktionierenden KI-Agenten ohne Code oder API-Kenntnisse. Lernen Sie die drei Agentenarchitekturen kennen, vergleichen Sie Plattformen und durchlaufen Sie ein echtes Beispiel für die E-Mail-Triage und CRM-Abfrage – von der Einrichtung bis zur Bereitstellung.            

            
                
                    Apr. 16, 2026
                    ·
                    14 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                Learning Lab            
            
            
                Kontextfenstermanagement: Lange Dokumente verarbeiten, ohne Daten zu verlieren            

            
                Kontextfenster-Limits brechen produktive KI-Systeme. Lernen Sie drei konkrete Techniken, um lange Dokumente und Konversationen zu verarbeiten, ohne Daten zu verlieren oder API-Kosten zu sprengen.            

            
                
                    Apr. 16, 2026
                    ·
                    4 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                Learning Lab            
            
            
                KI-Agenten entwickeln: Architekturmuster, Tool-Aufrufe und Speichermanagement            

            
                Erfahren Sie, wie Sie produktionsreife KI-Agenten entwickeln, indem Sie Tool-Aufruf-Verträge beherrschen, Agentenschleifen korrekt strukturieren und den Speicher in Sitzungs-, Wissens- und Ausführungsebenen aufteilen. Enthält funktionierende Python-Codebeispiele.            

            
                
                    Apr. 15, 2026
                    ·
                    5 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                Learning Lab            
            
            
                LLMs mit Tools verbinden: Ein Setup zur Workflow-Automatisierung            

            
                Verbinden Sie ChatGPT, Claude und Gemini mit Slack, Notion und Sheets über APIs und Automatisierungsplattformen. Lernen Sie die Kompromisse zwischen den Modellen kennen, erstellen Sie einen funktionierenden Slack-Bot und automatisieren Sie noch heute Ihren ersten Workflow.            

            
                
                    Apr. 15, 2026
                    ·
                    5 min read
                
                →
            
        
    
    
                                
        
    
    
    
        
        
            
                
                More from Prompt & Learn            
            
                                        
    

                    
                                
            
        
        
                        
                AI Tools Directory            
            
            
                Surfer vs. Ahrefs AI vs. SEMrush: Welches Tool rankt Inhalte am besten?            

            
                Sie haben drei Stunden damit verbracht, einen 2.500 Wörter langen Artikel zu optimieren. Veröffentlicht. Zwei Wochen gewartet. Rang 47. Der Wettbewerber mit der halben Wortzahl erreichte Platz 3. Der Unterschied war kein Aufwand. Es war das Tooling. Drei KI-gestützte SEO-Plattformen behaupten nun, Ihr Ranking-Problem zu lösen: Surfer, Ahrefs AI und SEMrush. Jedes nutzt Sprachmodelle, um Top-rankende Inhalte zu analysieren, Optimierungslücken aufzudecken und Korrekturen vorzuschlagen. Auf dem Papier lösen sie dasselbe Problem. In der Praxis lösen sie es unterschiedlich – mit unterschiedlichen blinden Flecken, unterschiedlichen Kosten und unterschiedlichen Genauigkeitsraten. Dies ist kein Marketingvergleich. Dies ist, was passiert, wenn Sie alle drei tatsächlich für echte Ranking-Kampagnen nutzen.            

            
                
                    Apr. 16, 2026
                    ·
                    10 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                AI Tools Directory            
            
            
                Figma KI vs Canva KI vs Adobe Firefly: Design-Tools im Vergleich            

            
                Figma KI, Canva KI und Adobe Firefly verfolgen unterschiedliche Ansätze für generatives Design. Figma priorisiert nahtlose Integration, Canva Geschwindigkeit und Firefly Ausgabequalität. Hier erfahren Sie, welches Tool zu Ihrem tatsächlichen Workflow passt.            

            
                
                    Apr. 16, 2026
                    ·
                    5 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                AI Tools Directory            
            
            
                DeepL führt Sprachübersetzung ein. Was sich für Teams ändert            

            
                DeepL kündigte Echtzeit-Sprachübersetzung für Zoom und Microsoft Teams an. Im Gegensatz zu bestehenden Lösungen baut es auf DeepLs Stärke bei der Textübersetzung auf – direkte Übersetzungsmodelle mit geringerer Latenz. Hier erfahren Sie, warum das wichtig ist und wo es an seine Grenzen stößt.            

            
                
                    Apr. 16, 2026
                    ·
                    3 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                AI Tools Directory            
            
            
                10 kostenlose KI-Tools, die sich 2026 wirklich bezahlt machen            

            
                Zehn kostenlose KI-Tools, die 2026 tatsächlich bezahlte SaaS ersetzen: Claude, Perplexity, Llama 3.2, DeepSeek R1, GitHub Copilot, OpenRouter, HuggingFace, Jina, Playwright und Mistral. Jedes über reale Arbeitsabläufe getestet mit realistischen Ratenlimits, Genauigkeitsbenchmarks und Kostenvergleichen.            

            
                
                    Apr. 15, 2026
                    ·
                    6 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                AI Tools Directory            
            
            
                Copilot vs Cursor vs Windsurf: Welcher IDE-Assistent funktioniert wirklich?            

            
                Drei Coding-Assistenten dominieren 2026. Copilot bleibt sicher für Unternehmen. Cursor gewinnt bei den meisten Entwicklern durch Geschwindigkeit und Genauigkeit. Windsurfs Agentenmodus führt tatsächlich Code aus, um Halluzinationen zu verhindern. Hier erfahren Sie, wie Sie wählen.            

            
                
                    Apr. 15, 2026
                    ·
                    5 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                AI Tools Directory            
            
            
                KI-Tools, die Ihnen wirklich Stunden pro Woche sparen            

            
                Ich habe 30 KI-Produktivitätstools für Schreiben, Programmieren, Recherche und Betrieb getestet. Nur 8 haben tatsächlich messbare Zeit gespart. Hier sind die Tools mit echtem ROI, die Workflows, in denen sie punkten, und warum die meisten „KI-Produktivitätstools“ versagen.            

            
                
                    Apr. 14, 2026
                    ·
                    12 min read
                
                →