Sie führen Inferenz in großem Maßstab durch. Die Kosten für Cloud-APIs beliefen sich letzten Monat auf 8.000 US-Dollar. Sie hören, dass lokale LLMs diese um 90 % senken können. Sie hören auch, dass sie langsam, unzuverlässig sind und GPUs erfordern, die Sie nicht haben. Beide Behauptungen haben einen wahren Kern – aber die Entscheidung ist nicht binär und es geht nicht darum, nur eine auszuwählen.
Die wahren Kosten: Wann Lokal tatsächlich weniger kostet
Ein einzelner Aufruf der Claude API kostet 0,003 US-Dollar pro 1.000 Eingabe-Tokens, 0,015 US-Dollar pro 1.000 Ausgabe-Tokens. Wenn Sie täglich 1 Million Tokens verarbeiten – realistisch für Produktionssysteme – zahlen Sie grob 90–150 US-Dollar pro Tag oder 2.700–4.500 US-Dollar monatlich. Das ist vor Mengenrabatten oder tatsächlicher Spitzenlast.
Mistral 7B lokal auf einer einzelnen GPU (RTX 4090, 1.600 US-Dollar Anschaffungskosten, amortisiert über 24 Monate) zu betreiben, kostet etwa 67 US-Dollar pro Monat für Strom und Infrastruktur. Einmalige Hardware-Investition, planbare laufende Kosten.
Aber hier ist die Falle: Diese GPU kostet keine 67 US-Dollar pro Monat, wenn sie im Leerlauf ist. Sie muss 24/7 laufen, sonst nutzen Sie sie gar nicht. Wenn Sie burst-lastigen Verkehr bewältigen – Spitzenlast 2 Stunden pro Tag – skaliert die Cloud automatisch herunter. Lokal nicht. Sie zahlen für Kapazitäten, die Sie nicht immer nutzen.
Der Break-Even-Point liegt bei etwa 5–8 Millionen verarbeiteten Tokens pro Monat zu Cloud-Preisen. Darunter ist die API günstiger. Darüber wird lokale Infrastruktur günstiger – wenn Sie bereit sind, sie zu verwalten.
Latenz ist nicht nur Geschwindigkeit
Lokale Latenz: Das erste Token erscheint in 50–200 ms auf einer aktuellen GPU. Gesamtreaktion: 2–5 Sekunden für eine Ausgabe von 500 Tokens.
Cloud-API-Latenz: Erstes Token in 300–800 ms. Gesamtreaktion: 5–12 Sekunden für die gleiche Ausgabe. Netzwerk-Round-Trips fügen 100–200 ms hinzu. Claude Sonnet 4 ist bei den meisten Aufgaben schneller als GPT-4o, aber beide haben messbare Verzögerungen für interaktive Anwendungsfälle.
Das Problem: Rohe Latenz ist in den meisten Anwendungen nicht Ihr Engpass. Wenn Sie einen Chatbot entwickeln, erwarten Benutzer ohnehin 2–3 Sekunden Antwortzeit. Wenn Sie Batch-Verarbeitung durchführen, spielt Latenz überhaupt keine Rolle. Latenz ist wichtig, wenn Sie Echtzeit-Reasoning-Workflows oder Streaming-Schnittstellen entwickeln, bei denen jede 100 ms die Benutzererfahrung beeinflusst.
Testen Sie es selbst. Bauen Sie dieselbe Funktion zweimal – einmal mit lokaler Inferenz, einmal mit API. Messen Sie nicht nur die Latenz, sondern auch die wahrgenommene Reaktionsfähigkeit. Benutzer spüren den Unterschied zwischen 500 ms und 2 s. Sie spüren nicht den Unterschied zwischen 2,5 s und 3,5 s.
Datenschutz und Datenkontrolle: Die eigentliche Unterscheidung
Cloud-APIs protokollieren Anfragen. Anthropic’s Datenschutzrichtlinie ist klar: Sie verwenden Ihre Daten zur Sicherheitsüberwachung und Serviceverbesserung. OpenAIs ist unklarer. Beides ist kein Datenleck – es sind vertragliche Praktiken. Aber wenn Sie PHI (geschützte Gesundheitsinformationen), Finanzberichte, proprietären Code oder etwas Regulierte verarbeiten, wird Lokal obligatorisch, nicht optional.
Lokale Inferenz bedeutet, dass keine Daten Ihre Infrastruktur verlassen. Keine API-Logs. Keine Überwachung durch Dritte. Das ist wichtig für das Gesundheitswesen, die Finanzbranche und Unternehmen mit Datenresidenzanforderungen. Es ist unwichtig, wenn Sie Blog-Kommentare verarbeiten.
Die Kosten für diesen Datenschutz: Sie sind nun verantwortlich für Modellaktualisierungen, Sicherheitspatches und Infrastrukturzuverlässigkeit. Cloud-APIs erledigen das für Sie. Lokale Infrastruktur liegt bei Ihnen.
Modellqualität: Die versteckte Variable
Mistral 7B hat 7 Milliarden Parameter. Claude Sonnet 4 ist deutlich größer. Bei Aufgaben der strukturierten Extraktion sind sie konkurrenzfähig. Bei Aufgaben mit hohem Reasoning-Bedarf – mehrstufige Logik, Code-Generierung mit Sonderfällen, nuancierte Klassifizierung – gewinnt Claude durchweg.
Hier ist ein realistisches Beispiel. Extrahieren strukturierter Daten aus Rechnungen:
# Mistral 7B auf lokaler GPU
# Prompt: Rechnungsdaten extrahieren
invoice_text = """Rechnung #12345
Datum: 15. März 2025
Gesamt: 2.450,00 €
Fällig: 15. April 2025
Artikel:
- Widget A (Stück 10): 1.000 €
- Widget B (Stück 5): 1.250 €
"""
prompt = f"""Extrahieren aus Rechnung:
rechnungsnummer:
betrag:
faelligkeitsdatum:
{invoice_text}
Antworte als JSON."""
# Ausgabe: ~95% Genauigkeit, 200ms Latenz, 0 € Kosten
Gleicher Prompt an Claude Sonnet 4:
# Cloud API (Claude)
# Gleiche Prompt-Struktur
# Ausgabe: 99,2% Genauigkeit, 1,2s Latenz, 0,002 € Kosten pro Rechnung
Bei einem Durchsatz von 10.000 Rechnungen täglich ändern sich die Berechnungen. Lokal: zuverlässige 95 %, inkrementell 0 €. Cloud: 99,2 % Genauigkeit, 20 €/Tag, aber Sie haben öfter mit Fehlern zu kämpfen.
Für 100 Rechnungen täglich eliminiert die 99,2 %ige Genauigkeit der Cloud einen Fehler pro Woche. Dieser Fehler kostet Sie 15 Minuten manueller Überprüfung. Die API-Kosten von 6 €/Monat sind unsichtbar.
Das Hybridmuster: Wenn beides Sinn ergibt
Die meisten Produktionssysteme wählen nicht nur eine Option. Sie verwenden Lokal für Aufgaben mit hohem Volumen und geringer Komplexität. Sie verwenden Cloud für Reasoning und Sonderfälle.
Beispiel: Klassifizierung von Kundensupport-Tickets.
# Schritt 1: Lokal (Mistral 7B)
# Ticket klassifizieren als: Abrechnung | technisch | allgemein
# Geschwindigkeit: 150ms, Kosten: 0 €
# Genauigkeit: 92%
# Schritt 2: Cloud (Claude) – bedingt
# Wenn Konfidenz < 80%, an Claude zur Neubewertung senden
# Kosten: nur bei unsicheren Tickets (~8% des Volumens)
# Genauigkeit bei unsicheren Tickets: 97%
# Ergebnis: 94% durchschnittliche Genauigkeit, 92% des Traffics lokal,
# 8% über Cloud = 0,50 €/Tag für 500 Tickets/Tag
Dieses Muster funktioniert, weil Sie jedes System für das nutzen, was es am besten kann. Lokal bewältigt das Volumen. Cloud bewältigt Urteilsvermögen.
Beginnen Sie hier: Ihr Entscheidungsrahmen
Beantworten Sie vor der Wahl zuerst diese drei Fragen:
1. Verlässt diese Daten Ihr Unternehmen? Wenn ja und es reguliert ist, ist Lokal obligatorisch. Hören Sie auf, Kosten und Latenz zu bewerten.
2. Wie viele Tokens monatlich? Unter 5 Mio.: Cloud ist günstiger. Über 10 Mio.: Lokale Infrastruktur rentiert sich.
3. Wie komplex ist die Aufgabe? Extraktion, Klassifizierung, Formatierung: Lokale 7B-Modelle funktionieren. Mehrstufiges Reasoning, Sonderfallbehandlung, kreative Problemlösung: Cloud-APIs (Claude oder GPT-4o) sind 15–25 % genauer.
Basierend auf diesen Antworten wissen Sie, ob Sie lokal ausführen, Cloud nutzen oder ein hybrides System aufbauen sollen. Die meisten Produktions-Teams landen bei einem Hybridansatz – aber diese Entscheidung sollte nach Tests getroffen werden, nicht davor.