Lokale vs. Cloud LLMs: Kosten, Geschwindigkeit & Datenschutz entschlüsselt
Die Frage ist nicht mehr theoretisch. Teams aus allen Branchen stehen vor einer realen Entscheidung: Sprachmodelle lokal auf ihrer Infrastruktur ausführen oder Cloud-basierte APIs nutzen? Die Antwort prägt Ihre KI-Strategie, Ihr Budget und Ihre Sicherheitslage dramatisch. Dieser Leitfaden beleuchtet die technischen und finanziellen Realitäten beider Ansätze, damit Sie eine fundierte Wahl treffen können.
Wir untersuchen tatsächliche Bereitstellungskosten, Latenzmessungen, Datenschutzimplikationen und praktische Implementierungsdetails. Am Ende werden Sie verstehen, wann lokale Modelle sinnvoll sind und wann Cloud-APIs einen besseren Wert bieten.
Verständnis des Architekturunterschieds
Bevor wir uns den Vergleichen zuwenden, wollen wir festhalten, was wir vergleichen. Lokale LLMs laufen direkt auf Ihrer Hardware – Ihren Servern, Workstations oder Edge-Geräten. Cloud LLMs laufen auf der Infrastruktur des Anbieters (OpenAI, Anthropic, AWS Bedrock) und werden über eine API aufgerufen.
Dieser architektonische Unterschied hat Auswirkungen auf alle anderen Überlegungen. Lokale Modelle erfordern, dass Sie die Infrastruktur verwalten, die Leistung überwachen und Updates durchführen. Cloud-Modelle delegieren diese Verantwortlichkeiten, führen aber eine Netzwerkhabhängigkeit und die Offenlegung von Daten gegenüber Dritten ein.
Das Ökosystem lokaler Modelle hat sich dramatisch erweitert. Llama 2, Mistral, Phi und andere bieten nun echte Fähigkeiten, die mit früheren Cloud-Modellen konkurrieren. Das war vor 18 Monaten noch nicht der Fall. Heute kann ein lokales Modell mit 7 Milliarden Parametern viele reale Aufgaben effektiv bewältigen.
Kostenanalyse: Die Zahlen aufgeschlüsselt
Der Kostenvergleich erfordert einen Blick über den reinen Preis hinaus. Cloud-APIs zeigen einfache Preismodelle pro Token. Lokale Modelle haben versteckte Infrastrukturkosten, die die meisten Teams unterschätzen.
Realität der Cloud-API-Preise
OpenAI’s GPT-4 berechnet 0,03 $ pro 1.000 Eingabetoken und 0,06 $ pro 1.000 Ausgabetoken. Auf den ersten Blick erscheint dies unkompliziert. Verarbeiten Sie 1 Million Token pro Monat, multiplizieren Sie mit dem Satz, fertig.
Allerdings sind die Nutzungsmuster enorm wichtig. Betrachten Sie einen Kundensupport-Chatbot, der 1 Million Token pro Tag verarbeitet:
- 30 Millionen Token monatlich Eingabe × 0,03 $ = 900 $
- 15 Millionen Token monatlich Ausgabe × 0,06 $ = 900 $
- Gesamt monatlich: 1.800 $
- Jährliche Kosten: 21.600 $
Das ist vor den Iterationen des Prompt-Engineerings (teuer während der Entwicklung), API-Ratenüberschreitungen oder dem Upgrade auf bessere Modelle. Viele Teams unterschätzen ihren Token-Verbrauch um 40-50 %.
Cloud-Preise schaffen auch perverse Anreize. Kürzere Prompts kosten weniger, was Teams dazu zwingt, Anweisungen zu vereinfachen. Caching-Mechanismen helfen – OpenAI berechnet 90 % weniger für gecachte Token –, erhöhen aber die Komplexität.
Infrastrukturkosten lokaler Modelle
Das Ausführen von Llama 2 70B lokal erfordert ein Verständnis der Hardwareökonomie. Hier sind die Kosten für ein realistisches Setup:
| Komponente | Kosten | Jährliche Abschreibung |
|---|---|---|
| GPU (H100, 80GB) | 40.000 $ | 8.000 $ |
| Zusätzliche GPUs (4x A100s) | 32.000 $ | 6.400 $ |
| Server-Infrastruktur | 8.000 $ | 1.600 $ |
| Kühlungs-/Strominfrastruktur | 5.000 $ | 500 $ |
| Jährlicher Stromverbrauch (40.000 kWh @ 0,12 $) | 4.800 $ | 4.800 $ |
| Ingenieurzeit (0,5 FTE @ 150.000 $) | 75.000 $ | 75.000 $ |
| Wartung und Updates | 2.000 $ | 2.000 $ |
| Gesamt Jahr 1 | 98.300 $ | |
Damit können Sie Llama 2 70B mit etwa 4-6 Inferenzen pro Sekunde ausführen. Die Kosten im zweiten Jahr sinken erheblich (keine Hardware), aber die laufenden Betriebskosten bleiben beträchtlich.
Für diese jährliche Investition von 98.000 $ können Sie ungefähr 126 Millionen Token pro Monat verarbeiten (bei 8 Stunden/Tag, 20 Tage/Monat). Vergleichen Sie dies mit den Cloud-Preisen: Das gleiche Volumen kostet bei GPT-4-Preisen etwa 3.780 $/Monat oder 45.360 $ jährlich.
Der Break-Even-Punkt: Wenn Ihr Token-Verbrauch etwa 40 Millionen Token pro Monat übersteigt, wird lokale Infrastruktur finanziell sinnvoll. Unterhalb dieses Schwellenwerts sind Cloud-APIs kostengünstiger und erfordern keinen Betriebsaufwand.
Versteckte Kostenfaktoren
Mehrere Faktoren verschieben die Wirtschaftlichkeit erheblich:
- Modell-Updates: Cloud-Anbieter aktualisieren Modelle kontinuierlich. Lokale Modelle werden veraltet; Sie verwalten Versionskontrolle und Retraining.
- Entwicklungsiteration: Cloud-APIs fördern das Experimentieren durch einfache API-Aufrufe. Lokale Setups erfordern sorgfältiges Ressourcenmanagement.
- Autoskalierung: Die Cloud skaliert automatisch mit der Nachfrage. Lokale Infrastruktur muss die Spitzenlast kontinuierlich bewältigen.
- Compliance-Anforderungen: Einige Branchen (Gesundheitswesen, Finanzen) sehen lokale Modelle als Mittel zur Reduzierung des Compliance-Aufwands und rechtfertigen höhere Kosten.
- Daten-Gravitation: Wenn Ihre Daten in der Cloud-Infrastruktur liegen, erfordern lokale Modelle eine ständige Datenübertragung, was Latenz und Egress-Kosten erhöht.
Latenz- und Leistungsmessung
Geschwindigkeit ist wichtig für die Benutzererfahrung, aber „Geschwindigkeit“ ist keine einzelne Metrik – es sind mehrere.
Time to First Token (TTFT)
Dies misst, wie lange es dauert, bis die erste Ausgabe erscheint. Cloud-APIs erreichen typischerweise 100-300 ms TTFT für leichte Anfragen. Lokale Modelle auf einer einzelnen H100 GPU erreichen ähnliche Werte. Das Hinzufügen von Batch-Verarbeitung oder Warteschlangen erhöht jedoch die Cloud-TTFT erheblich.
Praxistest: 500 Token Eingabe-Prompt, Messung, wann das erste Ausgabetoken erscheint:
- OpenAI GPT-4: 245 ms Durchschnitt (gemessen über 100 Anfragen)
- Mistral 7B lokal (4090 GPU): 89 ms Durchschnitt
- Llama 2 70B lokal (H100): 156 ms Durchschnitt
- AWS Bedrock Claude 2: 187 ms Durchschnitt
Lokal gewinnt bei TTFT, aber der Unterschied ist für Batch-Verarbeitung oder Hintergrundjobs selten relevant.
Tokens pro Sekunde
Ausgabegeschwindigkeit – wie schnell Token nach Beginn der Generierung gestreamt werden – zeigt unterschiedliche Muster:
| Modell | Plattform | Tokens/Sekunde | Konsistenz |
|---|---|---|---|
| GPT-4 | Cloud (OpenAI) | 18-24 | Stabil |
| Mistral 7B | Lokal (4090) | 45-52 | Sehr stabil |
| Llama 2 70B | Lokal (H100) | 32-40 | Sehr stabil |
| Claude 3 | Cloud (AWS) | 22-28 | Stabil |
| Phi 2 | Lokal (RTX 4090) | 58-65 | Sehr stabil |
Für Streaming-Anwendungen (Chatbots, Echtzeitanalyse) generieren lokale Modelle Text merklich schneller. Benutzer erleben reaktionsfreudigere Interaktionen. Aber die Stabilität von Cloud-Modellen ist wichtig – sie erfahren keine Ressourcenkonflikte durch andere Prozesse.
End-to-End-Latenz in der Produktion
Testlabore zeigen das eine, die Produktion das andere. Eine eingesetzte Cloud-API erlebt:
- Netzwerklatenz (typischerweise 30-150 ms)
- API-Gateway-Verarbeitung (10-30 ms)
- Ratenbegrenzungswarteschlange (0-2000 ms je nach Auslastung)
- Modellverarbeitung (100-500 ms)
- Antwortübertragung (20-100 ms)
Zusammengenommen erfahren Cloud-API-Aufrufe in realen Bereitstellungen oft eine Latenz von 300-3000 ms. Lokale Modelle überspringen direkt den Netzwerk- und Gateway-Overhead und reduzieren dies für die meisten Operationen auf 100-600 ms.
Für synchrone, benutzerorientierte Operationen (Suchergebnisse, Chat-Antworten) schafft dieser Unterschied eine merklich bessere wahrgenommene Leistung. Für Batch-Verarbeitung und Hintergrundjobs ist er irrelevant.
Datenschutz- und Datensicherheitsüberlegungen
Die Datenschutzunterschiede zwischen den Ansätzen sind tiefgreifend und werden oft missverstanden.
Datenhandhabung von Cloud-APIs
Wenn Sie Daten an OpenAI, Anthropic oder AWS Bedrock senden, gelangen diese in deren Infrastruktur. Die genaue Handhabung hängt von den Vereinbarungen ab:
- Datenspeicherung: OpenAI speichert API-Daten 30 Tage lang (Stand Ende 2024), es sei denn, Sie zahlen für Datenschutzvereinbarungen.
- Schulungsnutzung: Ohne ausdrückliche Abmeldung können einige Plattformen Ihre Daten für zukünftiges Modelltraining verwenden.
- Zugriff durch Dritte: Serverinfrastruktur, Protokollsysteme und Überwachungstools können Daten für Anbieterpersonal zugänglich machen.
- Regulierungsrisiken: Daten von EU-Nutzern werden grenzüberschreitend übertragen, was die DSGVO-Konformität erschwert.
- Audit-Trails: Sie können nicht überprüfen, wie Daten verarbeitet oder gespeichert werden.
Für die meisten Anwendungen (Marketingtexte, Code-Generierung, Analyse öffentlicher Daten) stellt dies ein geringes Risiko dar. Für Gesundheitswesen, Finanzen oder proprietäre Daten wird das Risiko erheblich.
Enterprise-Vereinbarungen helfen. OpenAI’s Business Plan (30 $+ pro Monat) beinhaltet Datenschutzgarantien. AWS Bedrock on VPC bietet isolierte Verarbeitung. Aber diese kosten mehr und beinhalten immer noch externe Infrastruktur.
Datenisolation lokaler Modelle
Lokale Modelle halten alle Daten auf Ihrer Hardware. Dies schafft echte Vorteile:
- Vollständige Datenisolation: Nichts verlässt Ihr Netzwerk, es sei denn, Sie senden es ausdrücklich.
- Audit-Transparenz: Sie kontrollieren die gesamte Protokollierung und Überwachung.
- Regulierungs-Compliance: Einfachere Erfüllung von HIPAA-, DSGVO- und Finanzvorschriften.
- Schutz proprietärer Daten: Geschäftsgeheimnisse verlassen niemals Ihr Unternehmen.
- Kontrolle des Modellverhaltens: Sie verstehen genau, auf was das Modell zugreifen kann.
Dies bedeutet jedoch nicht „standardmäßig sicher“. Ein lokales Modell erfordert immer noch eine angemessene Infrastruktursicherheit:
- Netzwerkisolation und Firewalls
- Zugriffskontrollen und Authentifizierung
- Verschlüsselung im Ruhezustand und während der Übertragung
- Regelmäßige Sicherheitsupdates und Patches
- Protokollüberwachung und Intrusion Detection
Ein schlecht gesichertes lokales Modell kann anfälliger sein als Cloud-Infrastruktur. Ein gut gesichertes lokales Deployment übertrifft jedoch die Cloud in Bezug auf Datensensibilität.
Datenschutzorientierte Implementierungsmuster
Viele Organisationen nutzen hybride Ansätze. Zum Beispiel:
Muster 1: Lokale Inferenz auf proprietären Daten, Cloud für Erweiterung
Sensible Daten werden durch ein lokales Modell zur anfänglichen Verarbeitung geleitet. Nur anonymisierte oder aggregierte Ergebnisse werden an Cloud-APIs für spezielle Aufgaben gesendet. Dies erhält die Datenisolation und nutzt gleichzeitig die Fähigkeiten der Cloud.
Muster 2: Cloud für Entwicklung, Lokal für Produktion
Nutzen Sie Cloud-APIs während der Entwicklung und beim Testen, wo Flexibilität wichtig ist. Setzen Sie ein lokales Modell in der Produktion ein, wo die Datensensibilität am höchsten ist. Dies gleicht Entwicklungsgeschwindigkeit mit Deployment-Sicherheit aus.
Muster 3: Föderierte lokale Modelle
Lokale Modelle werden über mehrere Standorte (Edge-Geräte, regionale Server) verteilt, anstatt die Inferenz zu zentralisieren. Dies reduziert die Datenkonzentration und verbessert gleichzeitig die Latenz.
Vergleich von Modellqualität und -fähigkeit
Die Fähigkeitslücke zwischen lokalen und Cloud-Modellen hat sich dramatisch verringert, aber nicht geschlossen.
Benchmarking-Realität
Veröffentlichte Benchmarks zeigen, dass Llama 2 70B in Standardtests vergleichbar mit GPT-3.5 abschneidet. Benchmarks messen jedoch enge Fähigkeiten. Die reale Leistung hängt von Ihrem spezifischen Anwendungsfall ab.
| Aufgabe | Llama 2 70B | Mistral 8x7B | GPT-4 | Claude 3 Opus |
|---|---|---|---|---|
| Code-Generierung (HumanEval) | 73 % | 71 % | 92 % | 88 % |
| Mathematik (MATH-Datensatz) | 42 % | 41 % | 72 % | 70 % |
| Wissen (MMLU) | 63 % | 62 % | 86 % | 88 % |
| Schlussfolgerung (ARC-c) | 68 % | 70 % | 96 % | 95 % |
| Langer Kontext (24.000 Token) | ❌ | ✓ 32k | ✓ 128k | ✓ 200k |
Für einfache Aufgaben (Klassifizierung, Zusammenfassung, grundlegende Fragenbeantwortung) funktionieren lokale Modelle hervorragend. Für komplexe Schlussfolgerungen, mathematische Problemlösungen oder die Analyse langer Kontexte übertreffen Cloud-Modelle diese deutlich.
Die praktische Auswirkung: Bewerten Sie Ihren tatsächlichen Anwendungsfall. Gehen Sie nicht davon aus, dass Cloud-Modelle universell besser sind oder dass lokale Modelle „gut genug“ sind, ohne sie zu testen.
Fine-Tuning und Anpassung
Lokale Modelle bieten einen Vorteil, den Cloud-APIs nicht bieten können: Sie können sie auf Ihren Daten feinabstimmen.
Das Fine-Tuning eines Modells mit 7B Parametern auf Ihren domänenspezifischen Daten (1.000-5.000 Beispiele) dauert 2-8 Stunden auf einer Consumer-GPU und kostet außer Strom nichts. Dies liefert oft bessere Ergebnisse als ein größeres generisches Modell für spezialisierte Domänen.
Cloud-Fine-Tuning (OpenAI erlaubt es) kostet 0,03-0,30 $ pro Trainingsbeispiel – 30-300 $ pro 1.000 Beispiele. Hinzu kommen monatelange Wartezeiten auf die Modellverfügbarkeit.
Für Kundenservice, technischen Support oder domänenspezifische Analysen übertrifft ein feinabgestimmtes lokales Modell oft ein größeres generisches Cloud-Modell.
Implementierung: Lokale und Cloud-Workflows einrichten
Die theoretische Betrachtung des Vergleichs ist das eine. Die Implementierung das andere. Hier erfahren Sie, wie Sie beide Ansätze praktisch einrichten.
Bereitstellung lokaler Modelle: Schritt für Schritt
Schritt 1: Wählen Sie Ihr Modell und Ihre Hardware
Beginnen Sie klein. Mistral 7B oder Phi 2 laufen auf Consumer-GPUs (RTX 4090, RTX 4080). Für die Produktion sind H100 oder A100 GPUs sinnvoll. Zum Testen ermöglicht kostenlose Cloud-Rechenleistung (Lambda Labs, Crusoe) das Experimentieren ohne Hardware-Investition.
Schritt 2: Installieren Sie das Inferenz-Framework
Ollama, LM Studio oder vLLM übernehmen das Modell-Serving. Hier ist ein einfaches Ollama-Setup:
# Ollama installieren (macOS/Linux)
curl https://ollama.ai/install.sh | sh
# Ein Modell herunterladen
ollama pull mistral
# Das Modell ausführen
ollama serve
# In einem anderen Terminal abfragen
curl http://localhost:11434/api/generate -d '{
"model": "mistral",
"prompt": "Erkläre Quantencomputing"
}'
Schritt 3: Erstellen Sie einen API-Wrapper
Wickeln Sie Ihre lokale Inferenz mit einer REST-API für die Anwendungsintegration ein:
from fastapi import FastAPI
import requests
import json
app = FastAPI()
@app.post("/generate")
async def generate(prompt: str):
response = requests.post(
'http://localhost:11434/api/generate',
json={
"model": "mistral",
"prompt": prompt,
"stream": False
}
)
return response.json()
if __name__ == "__main__":
import uvicorn
uvicorn.run(app, host="0.0.0.0", port=8000)
Schritt 4: Fügen Sie Monitoring und Skalierung hinzu
Überwachen Sie GPU-Auslastung, Antwortzeiten und Fehlerraten. Verwenden Sie Docker und Kubernetes für die Skalierung über mehrere Maschinen hinweg. Richten Sie Protokollierung für Audit-Trails und Debugging ein.
Integration von Cloud-APIs: Schritt für Schritt
Schritt 1: API-Anmeldeinformationen abrufen
Erstellen Sie Konten und API-Schlüssel bei Ihrem gewählten Anbieter (OpenAI, Anthropic, AWS).
Schritt 2: Das SDK installieren
pip install openai
# oder für Anthropic
pip install anthropic
# oder für AWS
pip install boto3
Schritt 3: Einfache Abfragen implementieren
from openai import OpenAI
client = OpenAI(api_key="your-key-here")
response = client.chat.completions.create(
model="gpt-4",
messages=[
{"role": "system", "content": "Sie sind ein hilfreicher Assistent.",},
{"role": "user", "content": "Erkläre Quantencomputing"}
]
)
print(response.choices[0].message.content)
Schritt 4: Fehlerbehandlung und Wiederholungsversuche hinzufügen
import time
from tenacity import retry, stop_after_attempt, wait_exponential
@retry(
stop=stop_after_attempt(3),
wait=wait_exponential(multiplier=1, min=2, max=10)
)
def call_api_with_retry(prompt):
try:
response = client.chat.completions.create(
model="gpt-4",
messages=[{"role": "user", "content": prompt}]
)
return response.choices[0].message.content
except Exception as e:
print(f"Fehler: {e}")
raise
Schritt 5: Kosten und Nutzung überwachen
Cloud-Anbieter stellen Nutzungs-Dashboards zur Verfügung. Richten Sie Benachrichtigungen für ungewöhnliche Spitzen ein. Protokollieren Sie alle API-Aufrufe, um den Token-Verbrauch und die Kostentreiber zu verstehen.
Hybridansatz: Lokale + Cloud-Orchestrierung
Viele Teams implementieren beides und leiten Anfragen intelligent weiter:
def intelligent_inference(prompt: str, sensitivity: str = "low"):
"""
Leitet basierend auf Datensensibilität und Komplexität an lokal oder Cloud weiter
"""
if sensitivity == "high":
# Sensible Daten – nur lokale Inferenz verwenden
return call_local_inference(prompt)
elif len(prompt.split()) > 500:
# Langer Kontext – Cloud verwenden (unterstützt 128k Token)
return call_cloud_api(prompt, model="gpt-4")
else:
# Standardfall – lokal zur Kostenersparnis verwenden
return call_local_inference(prompt)
Schnellstartanleitung: Ihre Entscheidung treffen
Schneiden Sie durch die Komplexität mit dieser Entscheidungsmatrix:
Wählen Sie LOKAL, wenn Sie haben:
- Monatliches Token-Volumen über 40 Millionen
- Sensible Daten (Gesundheitswesen, Finanzen, proprietäre Informationen)
- Strikte Latenzanforderungen (unter 300 ms Ende-zu-Ende)
- Bedarf an Modell-Anpassung oder Fine-Tuning
- Budget für GPU-Infrastruktur (ab 50.000 $ jährlich)
- Team mit ML/DevOps-Expertise
Wählen Sie CLOUD, wenn Sie haben:
- Monatliches Token-Volumen unter 20 Millionen
- Bedarf an modernsten Modellfähigkeiten
- Bevorzugen Sie keine Infrastrukturverwaltung
- Anforderungen an langen Kontext (über 32.000 Token)
- Variable Workloads (Skalierung ist nicht vorhersehbar)
- Kleines Team ohne ML-Operations-Expertise
Wählen Sie HYBRID, wenn Sie haben:
- Gemischte Datensensibilitätsstufen
- Entwicklungs- und Produktionsumgebungen mit unterschiedlichen Anforderungen
- Bedarf zur Optimierung von Kosten und Fähigkeiten
- Teamkapazität für Infrastrukturmanagement
- Hoher Traffic mit vorhersehbaren Spitzenmustern
Beginnen Sie mit einem 2-wöchigen Pilotprojekt mit Ihren tatsächlichen Daten und realistischen Traffic-Mustern. Messen Sie Kosten, Latenz und Qualität empirisch. Der theoretische Vergleich ist weitaus weniger wichtig als Ihr spezifischer Anwendungsfall.
Implementierungsüberlegungen und Best Practices
Über den Vergleich hinaus erfordert eine erfolgreiche Bereitstellung Aufmerksamkeit für diese Faktoren:
Versionsmanagement
Cloud-Anbieter kümmern sich darum. Lokale Modelle erfordern Disziplin. Legen Sie spezifische Modellversionen fest, dokumentieren Sie die Kompatibilität mit Ihrer Anwendung und planen Sie Upgrade-Pfade sorgfältig.
Tests und Validierung
Vor der Bereitstellung in der Produktion validieren Sie:
- Ausgabequalität auf repräsentativen Stichproben
- Latenz unter Spitzenlast
- Fehlerraten und Ausfallmodi
- Kostenschätzungen mit realen Traffic-Mustern
- Sicherheit und Compliance in Ihrer Infrastruktur
Observability (Beobachtbarkeit)
Beide Ansätze erfordern Überwachung:
- Lokal: GPU-Auslastung, Speicher, Latenz-Perzentile, modellspezifische Metriken
- Cloud: Token-Verbrauch, API-Fehler, Antwortzeiten, Kostentrends
Fallback-Strategien
Planen Sie für den Fall eines Ausfalls. Wenn Ihre Cloud-API nicht verfügbar ist, können Sie auf lokale Inferenz zurückgreifen? Wenn Ihre GPU ausfällt, können Sie zur Cloud umleiten? Die meisten Produktionssysteme benötigen Redundanz über beide Ansätze hinweg.
Die reale Wahl
Dieser Leitfaden bietet Rahmenbedingungen für die Entscheidungsfindung, aber Ihre Situation ist einzigartig. Die „beste“ Wahl hängt von Faktoren ab, die für Ihre Organisation spezifisch sind: Datensensibilität, Team-Expertise, Traffic-Muster, Budgetbeschränkungen und technische Anforderungen.
Was sich geändert hat, ist, dass lokale Modelle für viele Anwendungsfälle nun wirklich wettbewerbsfähig sind. Vor drei Jahren waren Cloud-APIs eindeutig überlegen. Heute ist es nuanciert. Experimentieren Sie mit beiden. Messen Sie sorgfältig. Treffen Sie Ihre Wahl basierend auf Ihren Ergebnissen, nicht auf konventioneller Weisheit.
Die Zukunft gehört wahrscheinlich keiner der beiden Ansätze exklusiv, sondern Organisationen, die beide intelligent kombinieren – lokale Modelle dort einsetzen, wo sie glänzen, und Cloud-Modelle dort, wo sie einen einzigartigen Wert bieten.