Ein System-Prompt ist der Unterschied zwischen einer KI, die schwafelt, und einer, die liefert. Letzten Monat habe ich die Extraktionspipeline von AlgoVesta überarbeitet, indem ich genau drei Zeilen im System-Prompt geändert habe. Das gleiche Modell. Die gleichen Eingabedaten. Die Ausgabequalität stieg von 67 % Parsbarkeit auf 94 %.
Die meisten Leute behandeln System-Prompts wie dekorative Anweisungen. Das sind sie nicht. Ein System-Prompt ist Ihr einzig garantierter Weg, die Denkweise eines Modells zu formen, bevor es Ihre eigentliche Anfrage sieht.
Was ein System-Prompt tatsächlich tut
Ein System-Prompt ist die erste Nachricht in einer Konversation – die, die der Benutzer nie sieht. Hier definieren Sie die Rolle des Modells, Einschränkungen, Ausgabeformate und Regeln für die Entscheidungsfindung. Das Modell behandelt es als Kontext, der nicht abläuft. Es gilt für jede Nachricht in diesem Gesprächsverlauf.
Das ist wichtig, denn das Modell gewichtet Systemanweisungen in den meisten Implementierungen stärker als Benutzereingaben. Ein gut gestalteter System-Prompt übersteht schlampige Benutzer-Prompts. Ein schwacher zerfällt unter ihnen.
Drei Komponenten, die das Verhalten steuern
Rollendefinition. Sagen Sie dem Modell genau, was es ist. Nicht „Sie sind ein hilfreicher Assistent“ – das ist bedeutungslos. Seien Sie spezifisch.
# Schlechter System-Prompt
Sie sind ein hilfreicher KI-Assistent, der Informationen über Trading liefert.
# Besserer System-Prompt
Sie sind ein quantitativer Trading-Analyst mit 10 Jahren Erfahrung.
Ihre Aufgabe ist es, Marktdaten zu analysieren und statistische Arbitragemöglichkeiten zu identifizieren.
Sie geben keine Finanzberatung. Sie kennzeichnen Möglichkeiten und deren Risiken.
Sie erklären Ihre Begründung in kurzen, nummerierten Punkten.
Die zweite Version schränkt die Ausgabestruktur ein, entfernt Scope Creep und verhindert, dass das Modell in Finanzberatung übergeht, wenn Sie es bitten, etwas zu analysieren.
Spezifikation des Ausgabeformats. Gehen Sie nicht davon aus, dass das Modell die Ausgabe so formatiert, wie Sie es benötigen. Definieren Sie es explizit.
# Schlechter System-Prompt
Analysieren Sie den folgenden Datensatz und geben Sie Einblicke.
# Besserer System-Prompt
Analysieren Sie den folgenden Datensatz.
Geben Sie die Ausgabe NUR als gültiges JSON in exakt dieser Struktur zurück:
{
"anomalies": [
{"metric": string, "threshold": number, "current_value": number}
],
"confidence": 0.0 bis 1.0,
"risk_flags": [string]
}
Schließen Sie keinen erklärenden Text außerhalb dieses JSON ein.
Ohne explizite Formatregeln wickeln Claude oder GPT-4o JSON in Markdown-Code-Zäune ein, fügen Präambeln hinzu oder nehmen Vorbehalte auf, die die nachgeschaltete Verarbeitung unterbrechen. Spezifität verhindert dies.
Verhaltensbeschränkungen. Sagen Sie dem Modell, was es ablehnen und wann es Unsicherheit kennzeichnen soll.
# Schlechter System-Prompt
Seien Sie genau.
# Besserer System-Prompt
Wenn Sie auf eines der folgenden Probleme stoßen, sagen Sie UNSICHER und stoppen Sie die Verarbeitung:
- Daten mit mehr als 20 % fehlenden Werten
- Anfragen, die über 30 Tage hinausgehen
- Abfragen zu Finanzdaten bestimmter Personen
Schätzen Sie keine fehlenden Daten. Extrapolieren Sie nicht über das Fenster Ihrer Trainingsdaten hinaus.
Wenn Sie die Aufgabe nicht abschließen können, erklären Sie dies in einem Satz.
Dies verhindert halluzinierte Datenpunkte und macht Fehler für nachgelagerte Prozesse sichtbar.
Das Gleichgewicht zwischen Temperatur und Token
System-Prompts arbeiten mit den Modelleinstellungen, nicht dagegen. Temperatur steuert die Zufälligkeit; ein System-Prompt steuert die Richtung.
Für deterministische Aufgaben (Datenextraktion, JSON-Formatierung, strukturierte Analyse) verwenden Sie eine Temperatur von 0,0–0,3 mit einem präzisen System-Prompt. Die niedrige Temperatur macht das Modell vorhersehbar; der System-Prompt macht es konsistent.
Für generative Aufgaben (Copywriting, Brainstorming, Content-Erstellung) verwenden Sie eine Temperatur von 0,7–0,9, aber halten Sie den System-Prompt auf Ton und Ausgabegrenzen konzentriert, nicht auf spezifische Inhalte.
Claude Sonnet 4 (März 2025) beachtet System-Prompts strenger als GPT-4o. Wenn Sie Modelle wechseln, testen Sie den System-Prompt auf beiden – das Verhalten unterscheidet sich. GPT-4o ignoriert manchmal Formatvorgaben bei Temperaturen von 0,8+; Claude hält sich daran.
System-Prompt-Länge und Token-Kosten
Ein detaillierter System-Prompt kostet bei jeder Anfrage in dieser Konversation Token. Das ist wichtig, wenn Sie eine hohe Inferenzleistung erzielen.
Ein umfassender System-Prompt umfasst 300–500 Token. Zu den Claude 3.5 Sonnet-Preisen (März 2025) sind das etwa 0,001–0,002 US-Dollar pro Anfrage allein für System-Token. Multiplizieren Sie dies mit 100.000 Anfragen pro Monat, und Sie landen bei 100–200 US-Dollar an System-Prompt-Overhead.
Die Lösung besteht nicht darin, Abstriche zu machen – sondern darin, Redundanzen zu entfernen. Jede Einschränkung in Ihrem System-Prompt sollte einem Zweck dienen. Wenn eine Einschränkung in Ihrem Benutzer-Prompt erscheint, entfernen Sie sie aus dem System-Prompt.
# Redundant
System: "Geben Sie immer gültiges JSON aus. Formatieren Sie es so: {...}"
User: "Analysieren Sie diese Daten und geben Sie JSON in der von mir angegebenen Struktur zurück."
# Optimiert
System: "Geben Sie immer gültiges JSON in dieser Struktur aus: {...}"
User: "Analysieren Sie diese Daten."
Der Benutzer-Prompt ist billiger – er wird nur einmal pro Nachricht verarbeitet. Der System-Prompt wird jedes Mal verarbeitet.
Testen Sie Ihren System-Prompt
Führen Sie die gleichen Testeingaben dreimal aus und prüfen Sie auf Konsistenz. Wenn die Ausgabe erheblich variiert, ist Ihr System-Prompt zu vage oder Ihre Temperatur zu hoch.
Testen Sie Randfälle: fehlerhafte Eingaben, fehlende Felder, Anfragen, die Ihre Einschränkungen verletzen. Ein guter System-Prompt behandelt diese, ohne zu halluzinieren – er kennzeichnet sie.
Dokumentieren Sie, was warum geändert wurde. Wenn Sie den System-Prompt nächsten Monat neu erstellen, wissen Sie, was funktioniert hat. Ich führe ein Changelog wie dieses:
v1 (Jan): Grundlegender Befehlssatz, 40 % Erfolgsquote bei komplexer Extraktion
v2 (Feb): JSON-Format-Spezifikation hinzugefügt, 67 % Erfolgsquote
v3 (März): Einschränkungsliste für Randfälle hinzugefügt, 94 % Erfolgsquote
- Vage Rollendefinition entfernt
- Explizites „UNSICHER“-Protokoll für mehrdeutige Eingaben hinzugefügt
- Genaues Verhalten bei der Fehlerbehandlung spezifiziert
Iteration ist eingebaut. Der erste System-Prompt wird nicht optimal sein.
Eine Sache, die Sie heute tun können
Nehmen Sie einen Prompt, den Sie regelmäßig verwenden. Schreiben Sie ihn mit drei expliziten Abschnitten neu: (1) Rolle und Einschränkungen, (2) Ausgabeformat als JSON oder strukturierter Text, (3) was zu tun ist, wenn die Aufgabe fehlschlägt. Testen Sie ihn fünfmal mit denselben Eingaben. Wenn die Ergebnisse um mehr als 10 % variieren, straffen Sie die Sprache oder senken Sie die Temperatur.