Learning Lab März 29, 2026 · 10 min read

Tokens: Warum sie Geld kosten und wie man sie zählt

Tokens sind die Einheiten, die LLMs zur Sprachverarbeitung verwenden, aber sie entsprechen nicht Wörtern oder Zeichen. Dieser Leitfaden erklärt, was Tokens sind, warum Kontextfenster wichtig sind, wie man sie genau misst und praktische Techniken, um unter Einschränkungen effizient zu bleiben.

Jede Interaktion mit einem LLM ist mit einer versteckten Steuer verbunden. Sie senden eine Anfrage, das Modell verarbeitet sie, generiert eine Antwort, und Sie bezahlen pro Token. Nicht pro Wort. Nicht pro Zeichen. Pro Token – eine Einheit, die sich nicht sauber auf etwas abbilden lässt, das Sie auf Ihrem Bildschirm sehen.

Die meisten, die mit LLMs arbeiten, wissen eigentlich nicht, was ein Token ist. Sie sehen einen Preis pro Token, multiplizieren ihn und machen weiter. Dann explodieren ihre Kosten aus unerklärlichen Gründen. Oder sie stoßen auf Kontextfenster-Limits und fragen sich, warum ihr 8.000 Wörter langer Text mitten in der Verarbeitung abgebrochen wurde.

Tokenisierung ist nicht nur ein Abrechnungsdetail. Sie ist die Randbedingung für alles, was Sie mit Sprachmodellen erstellen. Verstehen Sie sie, und Sie erschließen Effizienzgewinne, die sich in jedem System, das Sie betreiben, vervielfachen. Ignorieren Sie sie, und Sie verschwenden Geld, stoßen zu frustrierenden Zeiten an Grenzen und bauen schlechtere Produkte.

Was ein Token tatsächlich ist

Ein Token ist die kleinste Einheit, mit der ein Sprachmodell arbeitet. Es ist kein Wort. Es ist kein Zeichen. Es liegt dazwischen, und die genauen Grenzen verschieben sich je nach verwendetem Modell und dem Tokenizer, der Ihren Text kodiert.

Stellen Sie es sich so vor: Ein Tokenizer ist eine Nachschlagetabelle. Rohtext kommt auf der einen Seite hinein. Auf der anderen Seite kommt eine Sequenz von Ganzzahlen – Token-IDs. Das Modell sieht diese Ganzzahlen, verarbeitet sie und gibt neue Ganzzahlen zurück.

So sieht es in der Praxis aus:

Das Wort „Hallo“ = 1 Token
Das Wort „leider“ = 2 Tokens (lei + der)
Das Satzzeichen „.“ = 1 Token
Ein Leerzeichen vor einem Wort = 1 Token (normalerweise)
Die Sequenz „\n\n“ (Absatzumbruch) = 1 Token

Kurze, gebräuchliche Wörter werden zu einzelnen Tokens komprimiert. Längere oder seltenere Wörter werden über mehrere Tokens aufgeteilt. Sonderzeichen, Zahlen und Leerzeichen haben alle ihre eigenen Kodierungsregeln.

Unterschiedliche Modelle verwenden unterschiedliche Tokenizer. Die GPT-Modelle von OpenAI (GPT-4o, GPT-4 Turbo) verwenden den cl100k_base Tokenizer. Die Claude-Modelle von Anthropic verwenden einen anderen Tokenizer. Llama 3 70B verwendet wieder einen anderen. Das ist wichtig: Derselbe Satz wird je nachdem, welches Modell ihn verarbeitet, unterschiedlich lang tokenisiert.

Warum die Token-Anzahl nicht intuitiv ist

Sie schreiben 500 Wörter. Sie gehen davon aus, dass das ungefähr 500 Tokens sind, vielleicht 700, wenn Sie die Formatierung mitzählen. Dann führen Sie es durch einen Tokenizer und erhalten 820 Tokens. Oder 1.240. Oder etwas ganz anderes.

Die Diskrepanz entsteht, weil Tokens nicht Wortgrenzen folgen. Hier ist ein reales Beispiel:

# Eingabetext
„Die ChatGPT API gibt Token-Zählungen nicht automatisch zurück.“

# Wortanzahl: 9
# Token-Anzahl (OpenAI cl100k_base): 13

Warum 13? Zerlegen wir es:

„Die“ = 1 Token
„ChatGPT“ = 1 Token
„ API“ = 1 Token (Leerzeichen + Wort)
„gibt“ = 1 Token
„nicht“ = 1 Token
„automatisch“ = 1 Token
„zurück.“ = 2 Tokens (zurück + .)

Zusammengesetzte Wörter werden aufgeteilt. Markennamen werden komprimiert. Leerzeichen zählen. Ihre Bauchgefühl-Annahme über die Token-Dichte stimmt nicht.

Das ist praktisch wichtig, weil:

Sie Kosten nicht genau budgetieren können, ohne Ihre tatsächliche Token-Dichte zu kennen
Sie keine effizienten Prompts gestalten können, wenn Sie die Token-Anzahl schätzen
Sie unerwartet an Grenzen stoßen, wenn Sie falsch einschätzen, wie viel Inhalt passt

Kontextfenster: Die harten Limits

Jedes LLM hat ein Kontextfenster – die maximale Anzahl von Tokens, die es in einer einzigen Interaktion verarbeiten kann. Dies umfasst Ihren Prompt (Eingabe-Tokens) plus die Antwort des Modells (Ausgabe-Tokens).

Modell	Kontextfenster	Max. Ausgabe
Claude 3.5 Sonnet	200.000 Tokens	4.096 Tokens
GPT-4o	128.000 Tokens	4.096 Tokens
GPT-4 Turbo	128.000 Tokens	4.096 Tokens
Llama 3 70B	8.192 Tokens	N/A (variiert)
Mistral 7B	32.768 Tokens	N/A (variiert)

Claude 3.5 Sonnet mit seinem 200.000-Token-Fenster ist wirklich groß. Das sind ungefähr 150.000 Wörter Eingabe – ein ganzes technisches Handbuch oder ein Jahr E-Mails. GPT-4o mit 128.000 Tokens bewältigt die meisten dokumentengroßen Aufgaben. Llama 3 70B, wenn Sie es lokal ausführen, erreicht maximal 8.192 Tokens – etwa 6.000 Wörter.

Das Kontextfenster ist eine harte Obergrenze. Wenn Ihre Eingabe + gewünschte Ausgabe das Fenster überschreitet, kürzt das Modell Ihre Eingabe (verliert Informationen) oder gibt einen Fehler zurück. Keine sanfte Abfederung. Kein Überlaufpuffer. Sie erreichen das Limit und Ihre Anfrage schlägt fehl.

Deshalb ist die Token-Zählung vor dem Bauen wichtig. Wenn Sie Dokumente verarbeiten und Ihr Workflow System-Prompts, Retrieval-Kontext, Few-Shot-Beispiele und das eigentliche Dokument selbst hinzufügt, können Sie leicht das Fenster überschreiten.

Wie man Tokens effizient misst

Sie haben drei Möglichkeiten: lokal zählen, einen API-Aufruf verwenden oder schätzen.

Option 1: Lokal mit Tokenizer-Bibliotheken zählen

Für OpenAI-Modelle verwenden Sie den offiziellen Tokenizer:

import tiktoken

enc = tiktoken.encoding_for_model("gpt-4o")
text = "Ihr Prompt kommt hierher. Dies ist ein Test."
tokens = enc.encode(text)
print(f"Token-Anzahl: {len(tokens)}")
# Ausgabe: Token-Anzahl: 15

Für Anthropic Claude-Modelle bietet Anthropic einen Tokenizer:

import anthropic

client = anthropic.Anthropic()
text = "Ihr Prompt kommt hierher. Dies ist ein Test."

response = client.messages.count_tokens(
    model="claude-3-5-sonnet-20241022",
    messages=[{"role": "user", "content": text}]
)
print(f"Token-Anzahl: {response.input_tokens}")
# Ausgabe: Token-Anzahl: 15

Beide Ansätze sind schnell und genau. Nutzen Sie sie, bevor Sie etwas in großem Maßstab entwickeln.

Option 2: Tokens über API-Antwort prüfen

Die meisten API-Aufrufe geben die Token-Nutzung in der Antwort zurück. GPT-Modelle geben die Nutzung wie folgt zurück:

from openai import OpenAI

client = OpenAI()
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Hallo, wie geht es dir?"}]
)

print(f"Eingabe-Tokens: {response.usage.prompt_tokens}")
print(f"Ausgabe-Tokens: {response.usage.completion_tokens}")
print(f"Gesamt: {response.usage.total_tokens}")

Claude gibt die gleichen Informationen in der Nachrichtenantwort zurück. Erfassen Sie diese Daten immer, wenn Sie etwas entwickeln – sie sind die Wahrheit für Ihre tatsächliche Nutzung.

Option 3: Schätzen (wenn Sie nicht zählen können)

Wenn Sie eine grobe Schätzung benötigen, ohne Code auszuführen, gilt die Faustregel:

Englischer Text: 1 Token ≈ 0,75 Wörter (also 100 Wörter ≈ 133 Tokens)
Code: 1 Token ≈ 0,5 Wörter (Code wird weniger effizient tokenisiert)
JSON: ähnlich wie Code (strukturelle Zeichen fügen Overhead hinzu)

Dies ist eine Annäherung. Wenn Präzision wichtig ist – und das sollte sie in der Produktion sein –, messen Sie direkt, anstatt zu schätzen.

Effizientes Prompt-Design unter Token-Beschränkungen

Angesichts der begrenzten Tokens und der nicht intuitiven Token-Anzahl, wie entwerfen Sie Prompts, die im Budget bleiben und dennoch effektiv sind?

Technik 1: Eingabe vor Wortreichtum priorisieren

Ihr System-Prompt muss nicht alles erklären. Geben Sie ihm die wichtigen Regeln, schneiden Sie den Rest weg.

Schlechter Ansatz (148 Tokens):

Sie sind ein erfahrener Finanzanalyst mit tiefem Wissen über
Anlagestrategien, Markttrends und Risikomanagement.
Ihre Aufgabe ist es, Finanzdaten sorgfältig zu analysieren und
Einblicke zu geben. Sie sollten bei Ihrer Analyse stets gründlich,
bedacht und präzise sein. Denken Sie Schritt für Schritt über die Daten nach und geben Sie
umfassende Erklärungen für Ihre Schlussfolgerungen.

Besserer Ansatz (42 Tokens):

Analysieren Sie Finanzdaten. Geben Sie spezifische Einblicke mit Risiko-
bewertung. Seien Sie präzise.

Die zweite Version verwendet 71 % weniger Tokens und schränkt das Modell tatsächlich klarer ein. Entfernen Sie Adjektive. Entfernen Sie Zusicherungen. Behalten Sie Anweisungen.

Technik 2: Few-Shot-Beispiele selektiv verwenden

Few-Shot-Prompting (Beispiele geben) verbessert die Ausgabequalität, kostet aber Tokens für jedes hinzugefügte Beispiel. Verwenden Sie sie strategisch:

Überspringen Sie Few-Shot für einfache Aufgaben (Klassifizierung, einfache Extraktion). Das Modell kennt diese Muster.
Fügen Sie ein Beispiel für Aufgaben mittlerer Komplexität hinzu (bedingte Logik, Formatierungsanforderungen). Ein Beispiel ≈ 30–50 Tokens, je nach Länge.
Fügen Sie nur für komplexe Aufgaben zwei Beispiele hinzu (Randfälle, seltene Muster, spezifische Stilvorgaben).

Testen Sie es: Führen Sie Ihren Prompt ohne Beispiele aus, messen Sie die Ausgabequalität. Wenn die Qualität akzeptabel ist, haben Sie Tokens gespart. Fügen Sie nur Beispiele hinzu, wenn die Ausgabe merklich schlechter wird.

Technik 3: Kontext vor dem Senden komprimieren

Wenn Sie lange Dokumente verarbeiten, extrahieren Sie die relevanten Teile, bevor Sie sie an das Modell weitergeben. Hier spart RAG (Retrieval-Augmented Generation) Geld – Sie rufen nur die relevanten Passagen ab, nicht das gesamte Dokument.

import anthropic

client = anthropic.Anthropic()

# Anstatt ein 50.000-Token-Dokument zu senden
full_document = "... vollständiges technisches Handbuch ..."

# Relevanten Abschnitt zuerst extrahieren (eigene Logik, nicht LLM)
relevant_section = extract_relevant_section(full_document, query)

# Nur den relevanten Teil senden
response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    messages=[{
        "role": "user",
        "content": f"Kontext: {relevant_section}\n\nFrage: {query}"
    }]
)

print(response.content[0].text)

Das funktioniert, weil Sie kontrollieren, was das Modell sieht. Der Großteil des Dokuments bleibt auf der Festplatte. Nur die relevanten 500 Tokens werden verarbeitet. Gleiche Antwort. Anderer Preis.

Technik 4: System-Prompts über Batches wiederverwenden

Wenn Sie mehrere API-Aufrufe mit demselben System-Prompt durchführen, ist das in Ordnung – Sie werden jedes Mal für die Tokens des System-Prompts bezahlt. Aber wenn Ihr System-Prompt groß ist, bieten einige Modelle „Prompt-Caching“ an (Claude mit der Anthropic API berechnet 10 % für gecachte Tokens bei nachfolgenden Verwendungen).

Für AlgoVesta standardisieren wir auf kurze, wiederverwendbare System-Prompts. Anstelle eines 300-Token-Prompts, der mit jeder Anfrage gesendet wird, verwenden wir ein 40-Token-Befehlssatz. Die Einsparungen über Millionen von Inferenzvorgängen sind beträchtlich.

Token-Kosten über Modelle hinweg: Der Vergleich

Tokens sind die Währung, aber der tatsächliche Preis pro Token variiert stark. Hier sind die realen Preise Stand März 2025:

Modell	Eingabe (pro 1 Mio. Tokens)	Ausgabe (pro 1 Mio. Tokens)	Praktische Kosten pro 10.000 Eingaben
Claude 3.5 Sonnet	$3,00	$15,00	$0,03
GPT-4o	$5,00	$15,00	$0,05
GPT-4 Turbo	$10,00	$30,00	$0,10
Llama 3 70B (selbst gehostet)	$0 (Ihre Infrastruktur)	$0 (Ihre Infrastruktur)	$0 (Ihre Infrastruktur)

Claude 3.5 Sonnet ist am günstigsten für die Eingabe. GPT-4o kostet 60 % mehr pro Eingabe-Token. GPT-4 Turbo kostet 3x mehr. Wenn Sie Millionen von Inferenzvorgängen durchführen, zahlt sich Token-Effizienz direkt in Kosteneinsparungen aus.

Selbst gehostete Modelle (Llama 3 70B, Mistral usw.) verlagern die Kosten auf Ihre Infrastruktur. Keine pro-Token-Abrechnung, aber Sie zahlen im Voraus für die Rechenleistung. Der Break-Even-Punkt hängt von Ihrem Volumen und Ihren Infrastrukturkosten ab.

Häufige Fallstricke bei Token-Limits und wie man sie vermeidet

Fallstrick 1: Vergessen, dass System-Prompt-Tokens zählen

Ihr verfügbares Kontext ist nicht das volle Fenster abzüglich Ihrer Eingabe. Es ist das Fenster abzüglich Ihres System-Prompts abzüglich Ihrer Eingabe. Ein 1.000-Token-System-Prompt ist nicht kostenlos.

Mit GPT-4o (128.000-Token-Fenster) ergibt ein 1.000-Token-System-Prompt + 2.000-Token-Eingabe + 4.000-Token gewünschte Ausgabe = 7.000 verwendete Tokens. Sie haben 121.000 für tatsächlichen Inhalt übrig. Das ist immer noch viel, aber wenn Sie diese Rechnung sorglos über viele Prompt-Ebenen hinweg verwenden, geht der Puffer schnell verloren.

Fallstrick 2: Wiederholte Tokens nicht berücksichtigen

Wenn Sie ein System erstellen, bei dem ein Benutzer nacheinander mehrere Fragen stellt, gehen Sie nicht davon aus, dass Sie N Fragen in das Kontextfenster packen können. Jede Nachricht fügt Metadaten-Tokens hinzu. Jede Gesprächsrunde verbraucht Tokens für Formatierung und Struktur.

In der Praxis kann eine 10-Runden-Konversation mit kurzen Nachrichten aufgrund des Formatierungs-Overheads doppelt so viele Tokens verbrauchen wie der reine Text allein.

Fallstrick 3: Lange Eingaben naiv abschneiden

Wenn Sie ein Token-Limit erreichen, schneiden Sie den Text nicht einfach an Position N ab und hoffen, dass Sie keine kritischen Informationen verloren haben. Wählen Sie explizit die benötigten Abschnitte aus oder verwenden Sie RAG, um relevante Inhalte zu finden.

Naives Abschneiden führt zu Halluzinationen. Das Modell versucht, unvollständige Informationen zu verstehen und erfindet fehlenden Kontext.

Fallstrick 4: Davon ausgehen, dass alle Leerzeichen kostenlos sind

Leere Zeilen, Einrückungen und zusätzliche Leerzeichen werden alle tokenisiert. Wenn Sie einen Prompt zur besseren Lesbarkeit mit vielen Leerzeichen formatieren, verbrennen Sie Tokens für unsichtbare Zeichen.

Für benutzernahe Prompts ist Lesbarkeit wichtig. Für interne System-Prompts komprimieren Sie: Entfernen Sie zusätzliche Zeilenumbrüche, verwenden Sie einzelne Leerzeichen, halten Sie die Formatierung minimal.

Praktischer Workflow: Ein Token-effizientes System entwickeln

Hier ist der Schritt-für-Schritt-Ansatz, den ich verwende, wenn ich neue LLM-Funktionen entwickle:

Schritt 1: Baseline messen. Schreiben Sie Ihren Prompt so, wie er für Sie sinnvoll ist. Messen Sie die Token-Anzahl. Notieren Sie sie.

Schritt 2: Identifizieren Sie, welche Tokens tatsächlich zählen. System-Prompt. Eingabe. Beispiele. Welcher Eimer verbraucht am meisten? Wenn es Beispiele sind, streichen Sie sie. Wenn es die Eingabe ist, benötigen Sie eine bessere Dokumentenauswahl. Wenn es der System-Prompt ist, kürzen Sie die Anweisungen.

Schritt 3: Legen Sie ein Token-Budget fest und halten Sie es ein. Entscheiden Sie, wie viele Tokens Sie sich leisten können (Kosten) oder tolerieren können (Latenz). Berücksichtigen Sie Puffer für Variationen.

Schritt 4: Qualität im Budget testen. Führen Sie Ihren Prompt am Token-Limit mit echten Eingaben aus. Verschlechtert sich die Ausgabequalität? Wenn ja, schneiden Sie zu viel weg. Wenn nein, schneiden Sie mehr weg.

Schritt 5: In der Produktion überwachen. Protokollieren Sie die tatsächliche Token-Nutzung. Wenn die reale Nutzung Ihre Schätzung konstant um 20 % übersteigt, passen Sie Ihr Budget an. Wenn sie um 30 % darunter liegt, haben Sie Spielraum für Wertschöpfung (mehr Kontext, bessere Beispiele, klarere Anweisungen).

Heute tun

Wählen Sie einen Prompt oder ein System, das Sie regelmäßig verwenden. Führen Sie den offiziellen Tokenizer für Ihr Modell damit aus. Ermitteln Sie die tatsächliche Anzahl. Messen Sie dann die Wortanzahl und berechnen Sie Ihr Token-zu-Wort-Verhältnis. Die meisten Leute werden überrascht sein, dass es nicht 1:1 ist. Dieses Delta zu verstehen – wie Ihre tatsächliche Nutzung von Ihrer Annahme abweicht – ist der Beginn der Effizienz.

Wenn Sie ein System mit mehreren Nachrichten (Chat, Konversation, Retrieval) erstellen, messen Sie eine vollständige Interaktion Ende-zu-Ende. Sehen Sie, wie der Formatierungs-Overhead in Ihrem spezifischen Workflow aussieht. Diese Zahl ändert sich nicht – erfassen Sie sie einmal, verwenden Sie sie für jede zukünftige Schätzung.

Batikan

März 29, 2026 · 10 min read

Topics & Keywords

Learning Lab sie die tokens ist und wenn sie das ein

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies.

Ich habe 30 KI-Produktivitätstools für Schreiben, Programmieren, Recherche und Betrieb getestet. Nur 8 haben tatsächlich messbare Zeit gespart. Hier sind die Tools mit echtem ROI, die Workflows, in denen sie punkten, und warum die meisten „KI-Produktivitätstools“ versagen.

Apr. 14, 2026 · 12 min read

→

Was ein Token tatsächlich ist

Warum die Token-Anzahl nicht intuitiv ist

Kontextfenster: Die harten Limits

Wie man Tokens effizient misst

Option 1: Lokal mit Tokenizer-Bibliotheken zählen

Option 2: Tokens über API-Antwort prüfen

Option 3: Schätzen (wenn Sie nicht zählen können)

Effizientes Prompt-Design unter Token-Beschränkungen

Technik 1: Eingabe vor Wortreichtum priorisieren

Technik 2: Few-Shot-Beispiele selektiv verwenden

Technik 3: Kontext vor dem Senden komprimieren

Technik 4: System-Prompts über Batches wiederverwenden

Token-Kosten über Modelle hinweg: Der Vergleich

Häufige Fallstricke bei Token-Limits und wie man sie vermeidet

Fallstrick 1: Vergessen, dass System-Prompt-Tokens zählen

Fallstrick 2: Wiederholte Tokens nicht berücksichtigen

Fallstrick 3: Lange Eingaben naiv abschneiden

Fallstrick 4: Davon ausgehen, dass alle Leerzeichen kostenlos sind

Praktischer Workflow: Ein Token-effizientes System entwickeln

Heute tun

📚 Related Articles

Stay ahead of the AI curve

Related Articles

Professionelle Logos mit Midjourney erstellen: Schritt für Schritt zu Marken-Assets

Claude vs. ChatGPT vs. Gemini: Wählen Sie die richtige LLM für Ihren Workflow

Erstellen Sie Ihren ersten KI-Agenten ohne Code

Kontextfenstermanagement: Lange Dokumente verarbeiten, ohne Daten zu verlieren

KI-Agenten entwickeln: Architekturmuster, Tool-Aufrufe und Speichermanagement

LLMs mit Tools verbinden: Ein Setup zur Workflow-Automatisierung

More from Prompt & Learn

Surfer vs. Ahrefs AI vs. SEMrush: Welches Tool rankt Inhalte am besten?

Figma KI vs Canva KI vs Adobe Firefly: Design-Tools im Vergleich

DeepL führt Sprachübersetzung ein. Was sich für Teams ändert

10 kostenlose KI-Tools, die sich 2026 wirklich bezahlt machen

Copilot vs Cursor vs Windsurf: Welcher IDE-Assistent funktioniert wirklich?

KI-Tools, die Ihnen wirklich Stunden pro Woche sparen

Stay ahead of the AI curve