Le mois dernier, un développeur m’a demandé si ChatGPT supprimait immédiatement les requêtes API. Il envoyait des données clients via cet outil depuis six mois sans lire les conditions d’utilisation. Ce n’était pas le cas. Anthropic conservait ses conversations dans un système de stockage pendant 30 jours par défaut. Les politiques d’OpenAI varient en fonction du produit utilisé.
L’écart entre ce que les gens supposent qu’il advient de leurs données et ce qui se passe réellement est suffisamment large pour faire sombrer un système de production.
Cet article détaille les politiques exactes de rétention, de traitement et d’utilisation des données pour les trois LLM que la plupart des gens utilisent : ChatGPT (OpenAI), Claude (Anthropic) et Gemini (Google). Pas de langage marketing. Les conditions réelles, les implications pratiques et les flux de travail qui vous permettent de garder les données sensibles hors d’Internet.
Pourquoi les politiques de données des LLM comptent plus que vous ne le pensez
Lorsque vous envoyez du texte à un LLM, deux choses se produisent immédiatement : le modèle le traite et l’entreprise qui héberge le modèle l’enregistre. Ces deux actions ont des implications différentes.
Le traitement est rapide et invisible. Un fournisseur envoie votre requête à un serveur, le modèle la lit, génère une réponse et renvoie le résultat. Cela se fait en quelques secondes.
L’enregistrement (logging) est ce qui crée un risque à long terme. Après que votre requête atteint le serveur, l’entreprise peut choisir de :
- La conserver pendant une période déterminée. Certains fournisseurs conservent les conversations pendant des semaines ou des mois pour améliorer les modèles ou aider au dépannage.
- L’utiliser pour former les futures versions du modèle. C’était le comportement par défaut pour ChatGPT Web d’OpenAI jusqu’en novembre 2023, date à laquelle une option de désactivation a été ajoutée.
- La partager avec des tiers. Moins courant, mais possible dans le cadre d’accords d’entreprise.
- La supprimer immédiatement. Seuls certains plans API garantissent cela.
Le niveau de risque dépend entièrement des données que vous envoyez. Un nom ou une adresse e-mail client présente un faible risque. Un dossier médical, un relevé financier ou un algorithme propriétaire, non.
OpenAI ChatGPT : Web vs API vs Entreprise
OpenAI gère trois produits distincts avec trois politiques de données distinctes. La plupart des gens ne s’en rendent pas compte.
ChatGPT Web (les niveaux gratuit et payant)
Lorsque vous vous connectez à ChatGPT sur le Web et que vous avez une conversation :
- OpenAI conserve l’historique de vos conversations indéfiniment (sauf si vous les supprimez manuellement).
- Vos données ne sont pas utilisées pour entraîner ChatGPT par défaut, mais seulement si vous avez un abonnement Plus ou un compte d’essai gratuit créé après avril 2023.
- Comptes gratuits créés avant avril 2023 : les conversations étaient utilisées pour l’entraînement. Si vous en avez encore un, supposez que les anciennes conversations faisaient partie des données d’entraînement.
- Les conversations sont chiffrées en transit mais pas au repos sur les serveurs d’OpenAI (ils contrôlent les clés de chiffrement).
Impact pratique : Vous pouvez utiliser ChatGPT Web pour le brainstorming, l’écriture et le débogage. N’envoyez pas de données clients, de code source ou quoi que ce soit de confidentiel. Si vous avez besoin de garanties de désactivation de l’entraînement, souscrivez un abonnement Plus explicitement dans ce but, ou utilisez l’API.
OpenAI API
L’API a des conditions plus strictes, mais seulement si vous les connaissez :
- Comportement API par défaut (paiement à l’utilisation) : Les requêtes sont conservées pendant 30 jours pour des raisons de sécurité et de débogage. Elles ne sont pas utilisées pour l’entraînement.
- API avec désactivation (nécessite de contacter OpenAI) : Si vous êtes un client d’entreprise ou si vous le demandez explicitement, OpenAI peut supprimer les journaux après 30 jours sans réutilisation pour la recherche d’entraînement.
- Options de résidence des données : Si vous êtes basé dans l’UE et traitez des données sensibles, vous pouvez demander la résidence des données dans l’UE via l’API dédiée.
Exemple concret : Une entreprise fintech avec laquelle j’ai travaillé envoyait des données de transaction anonymisées via l’API pour des modèles de détection de fraude. La rétention par défaut de 30 jours était inacceptable pour leur équipe de conformité. Ils ont demandé la désactivation étendue, l’ont obtenue, et maintenant les journaux sont supprimés après 30 jours sans réutilisation pour l’entraînement.
Accord d’entreprise OpenAI
Si vous utilisez OpenAI via un contrat d’entreprise dédié :
- La rétention des données est négociable. Certaines entreprises obtiennent une rétention de 0 jour (journaux supprimés immédiatement après traitement).
- La désactivation de l’entraînement est garantie.
- Les données peuvent rester dans votre région ou au sein d’un VPC.
Coût : Les plans d’entreprise commencent à 30 000 $/an et augmentent ensuite, en fonction de l’utilisation et des exigences.
Anthropic Claude : plus clair par défaut
La politique de données de Claude est plus simple, ce qui explique pourquoi les équipes de production abandonnent ChatGPT au profit de Claude pour les flux de travail sensibles.
Claude Web (Claude.ai)
- Les conversations sont conservées pendant 30 jours par défaut pour améliorer le modèle.
- Vous pouvez refuser l’utilisation pour l’entraînement via les paramètres de votre compte (Paramètres → Données → Décochez l’option