Skip to content
Learning Lab · 5 min read

Was Large Language Models tatsächlich tun (und nicht tun)

Large Language Models sagen Wort für Wort voraus, basierend auf statistischen Mustern aus dem Training. Das Verständnis dieser Funktionsweise erklärt ihre Stärken, Grenzen und warum sie versagen – und hilft Ihnen, sie effektiv einzusetzen.

What Is an LLM — How Large Language Models Work

Sie haben überall von „Large Language Models“ gehört. Das klingt technisch. Ist es aber nicht wirklich.

Ein LLM ist eine statistische Mustererkennungsmaschine. Das ist alles. Füttern Sie es mit Text, und es sagt das nächste Wort voraus. Wiederholen Sie diesen Vorgang tausendfach, und Sie erhalten eine kohärente Antwort.

Der Unterschied, ob Sie verstehen, wie sie funktionieren, oder sie wie Magie behandeln, bestimmt, ob Sie sie effektiv einsetzen oder Zeit mit Warten auf Ausgaben verschwenden, die nie kommen.

Die einfachste Erklärung: Nächstwort-Vorhersage im großen Stil

Sprachmodelle werden auf riesigen Textmengen trainiert – Milliarden von Wörtern aus Büchern, Webseiten, Code-Repositories und Dokumenten. Während des Trainings lernen sie Muster: Nach „der schnelle braune“ kommt „Fuchs“ weitaus öfter vor als „Elefant“.

Das ist die gesamte Grundlage. Angesichts einer Startphrase berechnen diese Modelle Wahrscheinlichkeiten dafür, welches Wort als nächstes kommen sollte. Dann verwenden sie dieses Wort als Eingabe, berechnen erneut Wahrscheinlichkeiten und wiederholen den Vorgang, bis sie eine vollständige Antwort generiert haben.

Claude, GPT-4o, Gemini, Llama – sie alle arbeiten nach diesem Prinzip. Die Unterschiede liegen in den Trainingsdaten, der Modellgröße und architektonischen Anpassungen. Aber der Kernmechanismus ist die wahrscheinlichkeitbasierte Vorhersage.

Warum das wichtig ist: Verständnis der Fehlerquellen

Sobald Sie wissen, dass Modelle Tokens (kleine Textabschnitte) einzeln vorhersagen, ergeben sich mehrere Verhaltensweisen plötzlich.

Halluzinationen sind keine Fehler – sie sind unvermeidlich. Wenn ein Modell eine bestimmte Information während des Trainings nicht gesehen hat, muss es trotzdem eine Ausgabe erzeugen. Also generiert es plausibel klingenden Text, basierend auf Mustern, die es kennt. Eine erfundene Zitatangabe ist kein Lügen; es folgt dem statistischen Pfad, wie „Forschungszitate normalerweise aussehen“.

Länge erhöht Fehler. Jede Token-Vorhersage verstärkt die Unsicherheit. Bis ein Modell eine 2.000 Wörter lange Antwort generiert hat, hat es 2.000 Vorhersageschritte gemacht, die jeweils leicht daneben lagen. Deshalb weichen lange Ausgaben stärker von der Genauigkeit ab als kurze.

Temperature-Einstellungen ändern das Verhalten. Die Temperatur steuert die Zufälligkeit bei der Token-Auswahl. Hohe Temperatur (0,8–1,0) = das Modell wählt aus mehr möglichen nächsten Wörtern, was zu kreativen, aber weniger zuverlässigen Ausgaben führt. Niedrige Temperatur (0,2–0,3) = es wählt jedes Mal das statistisch wahrscheinlichste Wort, was zu konsistenten, aber repetitiven Ausgaben führt. Dies ist keine mystische Einstellung – sie kontrolliert direkt, wie viel Variation Sie im Vorhersageprozess zulassen.

Tokens: Die Währung von LLMs

Sie werden „Tokens“ ständig hören, wenn Sie mit Modellen arbeiten. Ein Token ist kein Wort.

Das Wort „unglaublich“ = 2 Tokens. Das Wort „Ich“ = 1 Token. Das Leerzeichen vor einem Wort zählt als Teil des nächsten Tokens. Das ist wichtig, da Sie für die API-Nutzung nach Tokens und nicht nach Wörtern bezahlen.

Claudes Preise (Stand Anfang 2025): 0,80 $ pro Million Eingabetokens, 2,40 $ pro Million Ausgabetokens. Wenn Sie ein 10.000 Wörter langes Dokument (ungefähr 13.000 Tokens) senden und eine 1.000 Wörter lange Antwort (ungefähr 1.300 Tokens) erhalten, kostet das etwa 11 Cent.

Eine grobe Regel: 1 Token ≈ 0,75 Wörter. Nützlich für die Budgetierung, nutzlos für Präzision. Führen Sie Ihren tatsächlichen Text durch einen Tokenizer, wenn Sie genaue Zählungen benötigen.

Kontextfenster: Wie viel das Modell tatsächlich erinnern kann

Modelle erinnern sich nicht an frühere Gespräche. Jedes Mal, wenn Sie eine Eingabe senden, erhält das Modell Ihre gesamte Nachricht als frischen Kontext.

Deshalb ist das Kontextfenster wichtig – die maximale Anzahl von Tokens, die ein Modell in einer einzigen Anfrage verarbeiten kann. GPT-4o: 128.000 Tokens. Claude 3.5 Sonnet: 200.000 Tokens. Mistral 7B (lokal ausgeführt): 32.000 Tokens.

Diese Grenze bestimmt, was Sie tatsächlich tun können. Ein Kontext von 200.000 Tokens bedeutet, dass Sie ein Buch mit 150.000 Wörtern einfügen könnten und immer noch Platz für Ihre Frage und die Antwort des Modells hätten. Ein Kontext von 4.000 Tokens bedeutet, dass Sie auswählen müssen, was wichtig ist.

Längere Kontextfenster machen Modelle nicht intelligenter, aber sie ermöglichen bestimmte Arbeitsabläufe: Analyse ganzer Dokumente, Aufrechterhaltung detaillierter Erinnerungen innerhalb eines einzigen Gesprächs, Verarbeitung längerer Quellmaterialien für RAG-Systeme.

Training vs. Inferenz: Warum ältere Informationen veraltet sind

Modelle werden einmal trainiert. Dann führen sie Inferenz aus – den Prozess der Generierung von Ausgaben aus Benutzereingaben.

Die Trainingsdaten von Claude 3.5 Sonnet haben einen Stichtag im April 2024. Alles danach kennt es nicht. Das ist kein Fehler; es ist eine strukturelle Realität. Modelle durchsuchen nicht das Internet und aktualisieren sich nicht selbst. Wenn Sie aktuelle Informationen benötigen, müssen Sie sie ihnen zuführen – deshalb gibt es RAG (Retrieval-Augmented Generation).

Was das für Sie morgen bedeutet

Behandeln Sie LLMs als Experten für Zusammenfassungen und Mustererkennung, nicht als Suchmaschinen oder Faktendatenbanken.

Wenn Sie mit LLMs arbeiten, beginnen Sie mit Tests an einer kleinen Charge, bevor Sie skalieren. Senden Sie 10 Beispiele an Claude mit Ihrer genauen Eingabeaufforderung. Beobachten Sie, was fehlschlägt. Die Fehler, die Sie sehen, sind keine Zufälle – es sind vorhersehbare Muster, wie die Wahrscheinlichkeitsberechnungen des Modells versagen. Korrigieren Sie die Eingabeaufforderung, testen Sie erneut. Dieser Zyklus ist schneller als die Iteration in der Produktion.

Wenn Sie ein LLM für eine bestimmte Aufgabe bewerten, prüfen Sie zuerst sein Kontextfenster, nicht seinen Namen. Ein kleineres lokales Modell mit 32.000 Tokens könnte ein größeres Cloud-Modell mit 4.000 Tokens bei Ihrer tatsächlichen Arbeitslast übertreffen. Testen Sie beide, bevor Sie sich festlegen.

Batikan
· 5 min read
Topics & Keywords
Learning Lab sie die das tokens 000 tokens ist und nicht
Share

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies.

Related Articles

Professionelle Logos mit Midjourney erstellen: Schritt für Schritt zu Marken-Assets
Learning Lab

Professionelle Logos mit Midjourney erstellen: Schritt für Schritt zu Marken-Assets

Midjourney generiert Logo-Konzepte in Sekundenschnelle – aber professionelle Marken-Assets erfordern spezifische Prompt-Strukturen, iterative Verfeinerung und Vektor-Konvertierung. Diese Anleitung zeigt den exakten Workflow, der produktionsreife Logos erzeugt.

· 5 min read
Claude vs. ChatGPT vs. Gemini: Wählen Sie die richtige LLM für Ihren Workflow
Learning Lab

Claude vs. ChatGPT vs. Gemini: Wählen Sie die richtige LLM für Ihren Workflow

Claude, ChatGPT und Gemini eignen sich jeweils für unterschiedliche Aufgaben. Dieser Leitfaden analysiert reale Leistungsunterschiede, Halluzinationsraten, Kosten und spezifische Workflows, bei denen jedes Modell glänzt – mit konkreten Prompts, die Sie sofort verwenden können.

· 4 min read
Erstellen Sie Ihren ersten KI-Agenten ohne Code
Learning Lab

Erstellen Sie Ihren ersten KI-Agenten ohne Code

Erstellen Sie Ihren ersten funktionierenden KI-Agenten ohne Code oder API-Kenntnisse. Lernen Sie die drei Agentenarchitekturen kennen, vergleichen Sie Plattformen und durchlaufen Sie ein echtes Beispiel für die E-Mail-Triage und CRM-Abfrage – von der Einrichtung bis zur Bereitstellung.

· 14 min read
Kontextfenstermanagement: Lange Dokumente verarbeiten, ohne Daten zu verlieren
Learning Lab

Kontextfenstermanagement: Lange Dokumente verarbeiten, ohne Daten zu verlieren

Kontextfenster-Limits brechen produktive KI-Systeme. Lernen Sie drei konkrete Techniken, um lange Dokumente und Konversationen zu verarbeiten, ohne Daten zu verlieren oder API-Kosten zu sprengen.

· 4 min read
KI-Agenten entwickeln: Architekturmuster, Tool-Aufrufe und Speichermanagement
Learning Lab

KI-Agenten entwickeln: Architekturmuster, Tool-Aufrufe und Speichermanagement

Erfahren Sie, wie Sie produktionsreife KI-Agenten entwickeln, indem Sie Tool-Aufruf-Verträge beherrschen, Agentenschleifen korrekt strukturieren und den Speicher in Sitzungs-, Wissens- und Ausführungsebenen aufteilen. Enthält funktionierende Python-Codebeispiele.

· 5 min read
LLMs mit Tools verbinden: Ein Setup zur Workflow-Automatisierung
Learning Lab

LLMs mit Tools verbinden: Ein Setup zur Workflow-Automatisierung

Verbinden Sie ChatGPT, Claude und Gemini mit Slack, Notion und Sheets über APIs und Automatisierungsplattformen. Lernen Sie die Kompromisse zwischen den Modellen kennen, erstellen Sie einen funktionierenden Slack-Bot und automatisieren Sie noch heute Ihren ersten Workflow.

· 5 min read

More from Prompt & Learn

Surfer vs. Ahrefs AI vs. SEMrush: Welches Tool rankt Inhalte am besten?
AI Tools Directory

Surfer vs. Ahrefs AI vs. SEMrush: Welches Tool rankt Inhalte am besten?

Sie haben drei Stunden damit verbracht, einen 2.500 Wörter langen Artikel zu optimieren. Veröffentlicht. Zwei Wochen gewartet. Rang 47. Der Wettbewerber mit der halben Wortzahl erreichte Platz 3. Der Unterschied war kein Aufwand. Es war das Tooling. Drei KI-gestützte SEO-Plattformen behaupten nun, Ihr Ranking-Problem zu lösen: Surfer, Ahrefs AI und SEMrush. Jedes nutzt Sprachmodelle, um Top-rankende Inhalte zu analysieren, Optimierungslücken aufzudecken und Korrekturen vorzuschlagen. Auf dem Papier lösen sie dasselbe Problem. In der Praxis lösen sie es unterschiedlich – mit unterschiedlichen blinden Flecken, unterschiedlichen Kosten und unterschiedlichen Genauigkeitsraten. Dies ist kein Marketingvergleich. Dies ist, was passiert, wenn Sie alle drei tatsächlich für echte Ranking-Kampagnen nutzen.

· 10 min read
Figma KI vs Canva KI vs Adobe Firefly: Design-Tools im Vergleich
AI Tools Directory

Figma KI vs Canva KI vs Adobe Firefly: Design-Tools im Vergleich

Figma KI, Canva KI und Adobe Firefly verfolgen unterschiedliche Ansätze für generatives Design. Figma priorisiert nahtlose Integration, Canva Geschwindigkeit und Firefly Ausgabequalität. Hier erfahren Sie, welches Tool zu Ihrem tatsächlichen Workflow passt.

· 5 min read
DeepL führt Sprachübersetzung ein. Was sich für Teams ändert
AI Tools Directory

DeepL führt Sprachübersetzung ein. Was sich für Teams ändert

DeepL kündigte Echtzeit-Sprachübersetzung für Zoom und Microsoft Teams an. Im Gegensatz zu bestehenden Lösungen baut es auf DeepLs Stärke bei der Textübersetzung auf – direkte Übersetzungsmodelle mit geringerer Latenz. Hier erfahren Sie, warum das wichtig ist und wo es an seine Grenzen stößt.

· 3 min read
10 kostenlose KI-Tools, die sich 2026 wirklich bezahlt machen
AI Tools Directory

10 kostenlose KI-Tools, die sich 2026 wirklich bezahlt machen

Zehn kostenlose KI-Tools, die 2026 tatsächlich bezahlte SaaS ersetzen: Claude, Perplexity, Llama 3.2, DeepSeek R1, GitHub Copilot, OpenRouter, HuggingFace, Jina, Playwright und Mistral. Jedes über reale Arbeitsabläufe getestet mit realistischen Ratenlimits, Genauigkeitsbenchmarks und Kostenvergleichen.

· 6 min read
Copilot vs Cursor vs Windsurf: Welcher IDE-Assistent funktioniert wirklich?
AI Tools Directory

Copilot vs Cursor vs Windsurf: Welcher IDE-Assistent funktioniert wirklich?

Drei Coding-Assistenten dominieren 2026. Copilot bleibt sicher für Unternehmen. Cursor gewinnt bei den meisten Entwicklern durch Geschwindigkeit und Genauigkeit. Windsurfs Agentenmodus führt tatsächlich Code aus, um Halluzinationen zu verhindern. Hier erfahren Sie, wie Sie wählen.

· 5 min read
KI-Tools, die Ihnen wirklich Stunden pro Woche sparen
AI Tools Directory

KI-Tools, die Ihnen wirklich Stunden pro Woche sparen

Ich habe 30 KI-Produktivitätstools für Schreiben, Programmieren, Recherche und Betrieb getestet. Nur 8 haben tatsächlich messbare Zeit gespart. Hier sind die Tools mit echtem ROI, die Workflows, in denen sie punkten, und warum die meisten „KI-Produktivitätstools“ versagen.

· 12 min read

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies. No noise, only signal.

Follow Prompt Builder Prompt Builder