Vous êtes à six heures de déboguer une requête. Claude ne parvient pas à classer les retours clients — même modèle, même tâche, approche différente à chaque fois. Puis vous ajoutez trois exemples au lieu de zéro, et la précision passe de 62 % à 91 %. Personne ne vous dit pourquoi cela arrive. Ils disent juste « le few-shot fonctionne mieux ». Ce n’est pas le cas. C’est le contexte qui compte.
Les Trois Approches Ne Sont Pas Interchangeables
Le zero-shot, le few-shot et la chaîne de pensée (chain-of-thought) sont des techniques distinctes qui résolvent différents problèmes. Les mélanger gaspille des tokens et nuit à la précision.
Zero-shot : Vous décrivez la tâche une fois, sans exemples. Le modèle utilise son entraînement pour déduire ce que vous voulez.
Few-shot : Vous fournissez 2 à 5 exemples d’entrée et de sortie correcte, puis vous demandez au modèle de faire de même pour de nouvelles données.
Chaîne de pensée : Vous demandez au modèle de montrer son raisonnement étape par étape avant de donner une réponse finale. Fonctionne avec ou sans exemples.
L’idée clé : ces approches répondent à différents modes d’échec. Le zero-shot échoue lorsque la tâche est ambiguë ou nouvelle. Le few-shot échoue lorsque vous n’avez pas de bons exemples. La chaîne de pensée échoue sur des tâches qui ne nécessitent pas de raisonnement (comme la recherche de faits).
Zero-Shot : Quand la Définition de la Tâche Suffit
Le zero-shot fonctionne mieux lorsque la tâche est évidente et que le modèle a rencontré des tâches similaires lors de son entraînement. Cas courants : classification avec des étiquettes claires, résumé simple, extraction de champs évidents.
J’ai testé cela avec Claude Sonnet 4 sur une tâche de classification de retours clients :
# Mauvaise requête zero-shot (trop vague)
Classez ces retours : « Le tableau de bord se charge lentement parfois »
Catégorie : [response]
# Requête zero-shot améliorée (structure claire, catégories définies)
Classez les retours clients suivants dans exactement une catégorie.
Catégories : Rapport de bug, Demande de fonctionnalité, Compliment, Plainte
Retour : « Le tableau de bord se charge lentement parfois »
Catégorie : [response]
# Sortie
Rapport de bug
La deuxième requête a fonctionné sur 78 % des cas de test sans exemples. L’ajout d’exemples l’a fait passer à 91 %, mais le zero-shot était déjà utile.
Quand utiliser le zero-shot : Tâches avec des étiquettes évidentes, instructions génériques que le modèle comprend grâce au pré-entraînement (écriture, résumé, mathématiques de base), ou lorsque vous avez besoin de tester rapidement avant d’investir dans des exemples.
Quand cela échoue : Classification spécifique à un domaine, tâches nécessitant des jugements subjectifs, ou lorsque les définitions des étiquettes contredisent les intuitions d’entraînement du modèle. Un filtre de « commentaire toxique » entraîné sur le préjudice utilisateur entre souvent en conflit avec la façon dont le modèle a appris à interpréter « toxique » à partir de données de médias sociaux.
Few-Shot : Quand les Exemples Façonnent le Comportement
Le few-shot fonctionne par démonstration, pas par explication. Trois bons exemples surpassent souvent de longues instructions écrites car le modèle apprend votre format de sortie exact, votre ton et la gestion des cas limites par reconnaissance de formes plutôt que par suivi d’instructions.
La différence entre le zero-shot et le few-shot n’est pas minime. Sur la classification de sentiments, le zero-shot (GPT-4o) a obtenu 71 % de précision sur un ensemble de test interne. L’ajout de trois exemples soigneusement sélectionnés l’a porté à 94 %.
Voici pourquoi les exemples fonctionnent : le modèle ne lit pas seulement votre instruction — il apprend votre définition de la catégorie par démonstration.
# Zero-shot (définition uniquement)
Classez comme Positif, Négatif ou Neutre.
Avis : « Le produit s'est cassé après deux semaines »
Sentiment : [response]
# Few-shot (les exemples définissent la norme)
Classez comme Positif, Négatif ou Neutre.
Exemple 1 :
Avis : « Livraison rapide, exactement ce que j'avais commandé »
Sentiment : Positif
Exemple 2 :
Avis : « Arrivé endommagé, emballage terrible »
Sentiment : Négatif
Exemple 3 :
Avis : « Ça fonctionne, rien de spécial »
Sentiment : Neutre
Avis : « Le produit s'est cassé après deux semaines »
Sentiment : [response]
# Sortie (few-shot)
Négatif
Les exemples apprennent au modèle ce que « cassé après deux semaines » signifie — un défaut, pas juste un regret. C’est le contexte que le few-shot fournit et que les définitions ne peuvent pas.
Combien d’exemples ? Deux à cinq, rarement plus. Au-delà de cinq, vous payez des tokens supplémentaires avec des gains de précision décroissants. Mistral 7B et Llama 3 70B bénéficient davantage des exemples que GPT-4o — les modèles plus petits dépendent plus fortement de la démonstration.
Quand utiliser le few-shot : Classification avec des étiquettes spécifiques au domaine, tâches où le format de sortie est important (JSON, CSV, données structurées), ou lorsque la précision du zero-shot est inférieure à 85 %.
Quand cela échoue : Tâches qui nécessitent un raisonnement sur plusieurs exemples (« trouver le schéma ») au lieu d’un apprentissage par répétition. Le few-shot enseigne quoi, pas pourquoi.
Chaîne de Pensée : Quand le Modèle a Besoin de Raisonner
La chaîne de pensée fonctionne en demandant au modèle de réfléchir à voix haute. Au lieu de sauter à une réponse, il énumère les étapes intermédiaires — et cela améliore presque toujours la précision sur les tâches qui nécessitent une inférence logique, des calculs ou un jugement en plusieurs étapes.
L’effet est mesurable. Sur les problèmes mathématiques, la chaîne de pensée a amélioré la précision de GPT-3.5 de 58 % à 78 % (recherche Anthropic, benchmarks de mars 2024). Le modèle ne raisonne pas mieux — il montre simplement son travail, ce qui lui permet de repérer les erreurs avant la réponse finale.
# Sans chaîne de pensée
Un magasin a 12 pommes. Ils en vendent 3. Combien en reste-t-il ?
Réponse : [response]
# Avec chaîne de pensée
Un magasin a 12 pommes. Ils en vendent 3. Combien en reste-t-il ?
Réfléchissons étape par étape.
# Sortie (chaîne de pensée)
Nombre de départ : 12 pommes
Vendus : 3 pommes
Reste : 12 - 3 = 9 pommes
Réponse : 9
Pour des mathématiques simples, cela semble évident. Sur des tâches complexes — examen de contrats, débogage de code, décision d’éligibilité d’un produit — la chaîne de pensée oblige le modèle à décomposer le problème au lieu de deviner.
Quand utiliser la chaîne de pensée : Logique en plusieurs étapes, mathématiques, revue de code, prise de décision avec des compromis, ou toute tâche où la réponse finale dépend de la correction du raisonnement intermédiaire.
Quand cela échoue : Récupération de faits (le modèle hallucine un raisonnement), classifications simples (tokens supplémentaires, pas de gain de précision), ou tâches où la vitesse prime sur la précision. La chaîne de pensée ajoute de la latence — chaque étape de raisonnement est une passe avant supplémentaire.
Combiner les Techniques : La Vraie Stratégie
En production, vous ne choisissez pas une seule méthode. Vous les superposez.
Commencez en zero-shot pour votre tâche. Si la précision est supérieure à 85 %, arrêtez-vous. Si elle est inférieure à 85 %, ajoutez trois exemples (few-shot). Si la précision échoue toujours dans des cas spécifiques — ceux qui nécessitent un jugement ou une inférence — ajoutez la chaîne de pensée uniquement pour ces cas.
Cette approche maintient les coûts des tokens bas tout en ciblant le véritable mode d’échec. Vous pourriez utiliser le zero-shot pour les cas évidents, le few-shot pour les cas limites, et la chaîne de pensée pour les décisions — le tout au sein du même pipeline.
Testez les trois sur vos données exactes avant de décider. Les benchmarks ne se transfèrent pas. Ce qui fonctionne sur MMLU peut échouer sur vos tickets de support client.
Aujourd’hui : Prenez votre requête actuelle. Mesurez la précision zero-shot sur 20 cas de test. Si elle est inférieure à 80 %, ajoutez deux exemples et re-testez. Notez quels cas se sont améliorés et lesquels ne l’ont pas fait. Utilisez la chaîne de pensée uniquement pour les échecs qui nécessitaient un raisonnement, pas une définition.