Letzten Monat fragte mich ein Entwickler, ob ChatGPT API-Anfragen sofort löscht. Er hatte sechs Monate lang Kundendaten durchgeschickt, ohne die Nutzungsbedingungen zu lesen. Das war nicht der Fall. Anthropic behielt seine Konversationen standardmäßig 30 Tage lang in einem Speichersystem. Die Richtlinien von OpenAI variieren je nach verwendetem Produkt.
Die Lücke zwischen dem, was die Leute über ihre Daten annehmen, und dem, was tatsächlich passiert, ist breit genug, um ein Produktionssystem zum Sinken zu bringen.
Dieser Artikel beleuchtet die genauen Richtlinien für Datenspeicherung, -verarbeitung und -nutzung für die drei LLMs, die die meisten Leute verwenden – ChatGPT (OpenAI), Claude (Anthropic) und Gemini (Google). Kein Marketing-Gerede. Tatsächliche Bedingungen, praktische Auswirkungen und die Workflows, mit denen Sie sensible Daten aus dem Internet heraushalten können.
Warum LLM-Datenrichtlinien wichtiger sind, als Sie denken
Wenn Sie Text an ein LLM senden, passieren zwei Dinge sofort: Das Modell verarbeitet ihn und das Unternehmen, das das Modell betreibt, protokolliert ihn. Diese beiden Dinge haben unterschiedliche Auswirkungen.
Die Verarbeitung ist schnell und unsichtbar. Ein Anbieter sendet Ihre Anfrage an einen Server, das Modell liest sie, generiert eine Antwort und gibt die Ausgabe zurück. Das ist in Sekunden erledigt.
Das Protokollieren ist das, was langfristige Risiken schafft. Nachdem Ihre Anfrage den Server erreicht hat, kann das Unternehmen wählen:
- Sie für einen bestimmten Zeitraum aufbewahren. Einige Anbieter speichern Konversationen wochen- oder monatelang zur Verbesserung von Modellen oder zur Fehlerbehebung.
- Sie zum Trainieren zukünftiger Versionen des Modells verwenden. Dies war die Standardeinstellung für OpenAI’s ChatGPT Web bis November 2023, als eine Opt-out-Möglichkeit hinzugefügt wurde.
- Sie an Dritte weitergeben. Weniger verbreitet, aber in Unternehmensvereinbarungen möglich.
- Sie sofort löschen. Nur bestimmte API-Pläne garantieren dies.
Das Risikoniveau hängt vollständig davon ab, welche Daten Sie senden. Ein Kundenname oder eine E-Mail ist ein geringes Risiko. Eine Krankenakte, ein Finanzbericht oder ein proprietärer Algorithmus sind es nicht.
OpenAI ChatGPT: Web vs. API vs. Enterprise
OpenAI betreibt drei separate Produkte mit drei separaten Datenrichtlinien. Die meisten Leute erkennen das nicht.
ChatGPT Web (die kostenlosen und kostenpflichtigen Stufen)
Wenn Sie sich im Web bei ChatGPT anmelden und eine Konversation führen:
- OpenAI behält Ihren Konversationsverlauf unbegrenzt (es sei denn, Sie löschen ihn manuell).
- Ihre Daten werden nicht standardmäßig zum Trainieren von ChatGPT verwendet – aber nur, wenn Sie ein Plus-Abonnement oder ein kostenloses Testkonto haben, das nach April 2023 erstellt wurde.
- Kostenlose Konten, die vor April 2023 erstellt wurden: Konversationen wurden für das Training verwendet. Wenn Sie noch eines haben, gehen Sie davon aus, dass ältere Konversationen Teil der Trainingsdaten waren.
- Konversationen werden während der Übertragung verschlüsselt, aber nicht im Ruhezustand auf den Servern von OpenAI (sie kontrollieren die Verschlüsselungsschlüssel).
Praktische Auswirkungen: Sie können ChatGPT Web zum Brainstorming, Schreiben und Debuggen verwenden. Senden Sie keine Kundendaten, Quellcodes oder vertraulichen Informationen. Wenn Sie Garantien für das Opt-out-Training benötigen, holen Sie sich ein Plus-Abonnement ausdrücklich aus diesem Grund oder verwenden Sie die API.
OpenAI API
Die API hat strengere Bedingungen – aber nur, wenn Sie davon wissen:
- Standard-API-Verhalten (Pay-as-you-go): Anfragen werden 30 Tage lang zur Sicherheit und Fehlerbehebung gespeichert. Sie werden nicht zum Training verwendet.
- API mit Opt-out (erfordert Kontaktaufnahme mit OpenAI): Wenn Sie ein Unternehmenskunde sind oder dies ausdrücklich beantragen, kann OpenAI Protokolle nach 30 Tagen ohne Speicherung für Trainingsforschung löschen.
- Datenresidenzoptionen: Wenn Sie in der EU ansässig sind und sensible Daten verarbeiten, können Sie über die dedizierte API eine EU-Datenresidenz beantragen.
Reales Beispiel: Ein Fintech-Unternehmen, mit dem ich zusammengearbeitet habe, sendete anonymisierte Transaktionsdaten über die API für Muster zur Betrugserkennung. Die standardmäßige 30-tägige Speicherung war für ihr Compliance-Team inakzeptabel. Sie beantragten das erweiterte Opt-out, erhielten es, und jetzt werden Protokolle nach 30 Tagen ohne Wiederverwendung für das Training gelöscht.
OpenAI Enterprise Agreement
Wenn Sie OpenAI über einen dedizierten Unternehmensvertrag nutzen:
- Die Datenspeicherung ist verhandelbar. Einige Unternehmen erhalten eine 0-Tage-Speicherung (Protokolle werden sofort nach der Verarbeitung gelöscht).
- Opt-out für das Training ist garantiert.
- Daten können in Ihrer Region oder innerhalb eines VPC verbleiben.
Kosten: Enterprise-Pläne beginnen bei 30.000 $/Jahr und steigen von dort aus, abhängig von Nutzung und Anforderungen.
Anthropic Claude: Standardmäßig klarer
Claudes Datenrichtlinie ist geradliniger, was einer der Gründe ist, warum Produktionsteams von ChatGPT zu Claude für sensible Arbeitsabläufe wechseln.
Claude Web (Claude.ai)
- Konversationen werden standardmäßig 30 Tage lang gespeichert, um das Modell zu verbessern.
- Sie können die Nutzung zum Training über Ihre Kontoeinstellungen abwählen (Einstellungen → Daten → Kontrollkästchen für „Konversationen zum Trainieren von Modellen verwenden“ deaktivieren).
- Daten sind während der Übertragung und im Ruhezustand verschlüsselt.
Praktische Auswirkungen: Claude.ai ist eine gute Option für Brainstorming und Schreiben, aber Sie sollten immer noch keine hochsensiblen Daten senden. Die 30-tägige Aufbewahrungsfrist ist für die meisten Compliance-Anforderungen zu lang. Sie können das Training deaktivieren, aber das bedeutet nicht, dass die Daten sofort gelöscht werden.
Anthropic API
- Standardmäßig werden Anfragen 30 Tage lang gespeichert und zum Trainieren von Modellen verwendet.
- Sie können das Training deaktivieren und die Löschung der Protokolle nach 30 Tagen anfordern, indem Sie sich an Anthropic wenden.
- Es gibt keine Datenresidenzoptionen für die API.
Praktische Auswirkungen: Wenn Sie die API verwenden, ist die Standardeinstellung nicht sicher genug für vertrauliche Daten. Sie müssen sich aktiv an Anthropic wenden, um das Training zu deaktivieren und eine schnellere Löschung zu beantragen.
Google Gemini: Umstritten durch die Google-Integration
Gemini hat die potenziell umfassendsten und am wenigsten transparenten Datenrichtlinien, da es tief in das Google-Ökosystem integriert ist.
Gemini Web (ehemals Bard)
- Konversationen werden 30 Tage lang gespeichert und können zum Trainieren der Modelle verwendet werden.
- Sie können die Datennutzung zum Training deaktivieren, indem Sie die erweiterte Nutzung von Gemini deaktivieren (dies deaktiviert auch die Nutzung von Gemini für Sie).
- Daten sind während der Übertragung und im Ruhezustand verschlüsselt.
Praktische Auswirkungen: Die Standardeinstellung ist ein absolutes No-Go für sensible Daten. Wenn Sie Gemini Web für etwas anderes als allgemeine Recherchen verwenden, müssen Sie Ihre Google-Kontoaktivitätseinstellungen überdenken. Und selbst dann gibt es keine Garantie für die sofortige Löschung.
Google Cloud AI Platform (Vertex AI)
Wenn Sie Gemini über Google Cloud Vertex AI verwenden (die Enterprise-Option von Google):
- Ihre Daten werden nicht zum Trainieren der Modelle von Google verwendet.
- Die Datenaufbewahrung ist verhandelbar und kann auf 0 Tage eingestellt werden.
- Sie können Ihre Daten in einer bestimmten Region speichern.
Kosten: Vertex AI ist Teil von Google Cloud und die Kosten variieren je nach Nutzung und den von Ihnen ausgewählten Diensten. Es ist deutlich teurer als die Consumer-Produkte.
Workflows, um sensible Daten aus LLMs herauszuhalten
Selbst mit den strengsten Datenschutzrichtlinien gibt es keine Garantie, dass Ihre Daten zu 100 % sicher sind. Hier sind drei Methoden, um das Risiko zu minimieren:
1. Anonymisieren und Hashen von PII
Wenn Sie Kunden-PII (personenbezogene Daten) senden müssen, ersetzen Sie sie durch Platzhalter oder Hashes. Tools wie `Presidio` können dabei helfen.
Beispiel:
Statt:
„Informieren Sie John Doe (john.doe@example.com), dass seine Rechnung fällig ist.“
Senden Sie:
„Informieren Sie [CUSTOMER_NAME] ([CUSTOMER_EMAIL]), dass seine Rechnung fällig ist.“
Oder mit Hashes:
„Informieren Sie [HASH_OF_JOHN_DOE] ([HASH_OF_JOHN_DOE_EMAIL]), dass seine Rechnung fällig ist.“
Dies ist eine grundlegende Methode, aber sie ist besser als nichts.
2. Verwenden Sie dedizierte APIs mit strengen Richtlinien
Wenn Sie sensible Daten verarbeiten müssen, verwenden Sie immer die API-Version des LLM, nicht die Web-Version. Und wenn möglich, wählen Sie ein Produkt mit den strengsten Standardrichtlinien.
Aktuell sind das:
- Anthropic API (mit der Anforderung zur Deaktivierung des Trainings und zur sofortigen Löschung)
- OpenAI API (mit der Anforderung zur Deaktivierung des Trainings und zur sofortigen Löschung)
- Google Cloud Vertex AI
Sie müssen jeden Anbieter kontaktieren, um diese Einstellungen zu konfigurieren. Sie werden nicht standardmäßig angewendet.
3. Lokale LLMs bereitstellen
Die sicherste Methode, um proprietären Code, medizinische Daten oder andere extrem sensible Informationen zu verarbeiten, ist die Bereitstellung eines LLM lokal auf Ihrer eigenen Infrastruktur. Dies bedeutet, dass Ihre Daten Ihre Server niemals verlassen.
Beliebte Optionen sind:
- Ollama
- vLLM
- Llama.cpp
Diese erfordern mehr technisches Know-how und Ressourcen, bieten aber die ultimative Kontrolle über Ihre Daten.
Drei Fragen, die Sie sich stellen sollten, bevor Sie LLMs verwenden
Bevor Sie irgendein LLM für Geschäftsdaten verwenden, stellen Sie sich diese drei Fragen:
- Würde es uns schaden, wenn diese Daten öffentlich würden? Wenn die Antwort „Ja“ lautet, verwenden Sie keine öffentlichen LLMs.
- Wo genau werden meine Daten gespeichert? Verstehen Sie die Standardeinstellungen und die Optionen, die Ihnen zur Verfügung stehen.
- Können wir eine 30-tägige Verzögerung bei der Löschung akzeptieren? Wenn nicht, müssen Sie wahrscheinlich eine lokale Bereitstellung oder eine Enterprise-Lösung in Betracht ziehen.
Die KI-Landschaft entwickelt sich schnell. Bleiben Sie informiert und treffen Sie bewusste Entscheidungen darüber, wie Sie Ihre Daten schützen.