Vous avez une feuille de calcul de 50 000 lignes. La question n’est pas de savoir si vous pouvez la charger en mémoire — mais si le LLM peut réellement comprendre ce que vous lui demandez de faire avec les données.
Le mois dernier, j’ai donné un CSV à Claude et je lui ai demandé de trouver des anomalies. Il a renvoyé un résumé techniquement exact mais a manqué le pic réel que je recherchais. Le problème n’était pas le modèle — c’était la façon dont j’avais structuré la requête et le sous-ensemble de données que j’avais envoyé.
Configuration : Intégrer vos données dans le modèle
Claude et GPT-4o ne peuvent pas ouvrir directement les fichiers. Vous avez deux options : copier-coller les données directement ou utiliser une API qui gère les téléchargements de fichiers. Pour les petits ensembles de données (moins de 10 Mo), le copier-coller fonctionne. Pour tout ce qui est plus volumineux, vous avez besoin d’une approche structurée.
Méthode 1 : Copier-coller les données brutes
Copiez votre CSV directement dans la conversation. Cela fonctionne de manière fiable pour les ensembles de données de moins de 100 000 lignes (environ 50 Mo de texte). La fenêtre de contexte de Claude est actuellement de 200 000 tokens ; celle de GPT-4o est de 128 000 tokens. Une ligne CSV typique contient 50 à 200 tokens selon le nombre de colonnes et la densité des données.
# Mauvaise approche
Utilisateur : Voici mes données. Analysez-les.
[colle 500 lignes]
# Meilleure approche
Utilisateur : Je vous envoie les données de ventes du T3 : 847 lignes, 12 colonnes (date, produit, région, revenus, unités, marge, remise, nom_représentant, type_client, mode_paiement, jours_livraison, client_fidèle).
Tâche : Identifier les produits dont les marges diminuent de mois en mois et les régions qui présentent la plus forte variation des délais de livraison.
Contexte : Nous avons lancé la livraison gratuite en août, donc les délais de livraison peuvent avoir changé. Les marges se situent généralement entre 20 et 35 %.
Veuillez structurer votre sortie comme suit :
1. Produits avec baisse de marge (nom du produit, marge T2, marge T3, % de changement)
2. Régions classées par variation des délais de livraison (nom de la région, jours moyens, écart type)
3. Une anomalie que je devrais examiner immédiatement
Remarquez la structure : quelles données sont incluses, la tâche exacte, le contexte pertinent et le format de sortie attendu. Cela réduit les hallucinations d’environ 40 % par rapport à une requête vague.