Vous avez entendu parler de « grands modèles linguistiques » (LLM) partout. Cela sonne technique. Ce n’est pas vraiment le cas.
Un LLM est une machine de mise en correspondance de modèles statistiques. C’est tout. Donnez-lui du texte, il prédit le mot suivant. Répétez ce processus des milliers de fois, et vous obtenez une réponse cohérente.
La différence entre comprendre leur fonctionnement et les traiter comme de la magie détermine si vous les utiliserez efficacement ou si vous perdrez votre temps à attendre des résultats qui n’arrivent jamais.
L’explication la plus simple : prédiction du mot suivant à grande échelle
Les modèles linguistiques sont entraînés sur d’énormes quantités de texte — des milliards de mots provenant de livres, de sites Web, de dépôts de code et de documents. Pendant l’entraînement, ils apprennent des modèles : après « le petit chat » vient « gris » beaucoup plus souvent que « éléphant ».
C’est toute la base. Étant donné une phrase de départ, ces modèles calculent les probabilités du mot qui devrait suivre. Ensuite, ils utilisent ce mot comme entrée, calculent à nouveau les probabilités, et répètent jusqu’à ce qu’ils aient généré une réponse complète.
Claude, GPT-4o, Gemini, Llama — ils fonctionnent tous sur ce même principe. Les différences résident dans les données d’entraînement, la taille du modèle et les ajustements architecturaux. Mais le mécanisme central est la prédiction basée sur les probabilités.
Pourquoi c’est important : comprendre les modes d’échec
Une fois que vous savez que les modèles prédisent des jetons (petits morceaux de texte) un par un, plusieurs comportements deviennent soudainement compréhensibles.
Les hallucinations ne sont pas des bugs, elles sont inévitables. Si un modèle n’a pas vu une information spécifique pendant l’entraînement, il doit quand même produire une sortie. Il génère donc un texte plausible basé sur les modèles qu’il connaît. Une citation de recherche inventée ne ment pas ; elle suit le chemin statistique de « à quoi ressemblent habituellement les citations de recherche ».
La longueur augmente l’erreur. Chaque prédiction de jeton amplifie l’incertitude. Au moment où un modèle génère une réponse de 2 000 mots, il a effectué 2 000 étapes de prédiction, chacune légèrement erronée. C’est pourquoi les sorties longues s’éloignent davantage de la précision que les courtes.
Les réglages de température modifient le comportement. La température contrôle le caractère aléatoire dans la sélection des jetons. Une température élevée (0,8-1,0) = le modèle choisit parmi plus de mots possibles, conduisant à une sortie créative mais moins fiable. Une température basse (0,2-0,3) = il choisit à chaque fois le mot statistiquement le plus probable, conduisant à une sortie cohérente mais répétitive. Ce n’est pas un réglage mystique, il contrôle directement la variation que vous autorisez dans le processus de prédiction.
Les jetons : la monnaie des LLM
Vous entendrez constamment parler de « jetons » lorsque vous travaillerez avec des modèles. Un jeton n’est pas un mot.
Le mot « incroyable » = 2 jetons. Le mot « Je » = 1 jeton. L’espace avant un mot compte comme faisant partie du jeton suivant. Cela est important car vous payez pour l’utilisation de l’API par jetons, pas par mots.
Tarifs de Claude (début 2025) : 0,80 $ par million de jetons d’entrée, 2,40 $ par million de jetons de sortie. Si vous envoyez un document de 10 000 mots (environ 13 000 jetons) et recevez une réponse de 1 000 mots (environ 1 300 jetons), cela coûte environ 11 cents.
Une règle approximative : 1 jeton ≈ 0,75 mot. Utile pour le budget, inutile pour la précision. Exécutez votre texte réel dans un tokeniseur si vous avez besoin de comptes exacts.
Fenêtre de contexte : ce que le modèle peut réellement retenir
Les modèles ne se souviennent pas des conversations précédentes. Chaque fois que vous envoyez une entrée, le modèle reçoit votre message complet comme nouveau contexte.
C’est pourquoi la fenêtre de contexte est importante : le nombre maximum de jetons qu’un modèle peut traiter en une seule requête. GPT-4o : 128 000 jetons. Claude 3.5 Sonnet : 200 000 jetons. Mistral 7B (exécuté localement) : 32 000 jetons.
Cette limite façonne ce que vous pouvez réellement faire. Une fenêtre de contexte de 200 000 jetons signifie que vous pourriez coller un livre de 150 000 mots et avoir encore de la place pour votre question et la réponse du modèle. Une fenêtre de contexte de 4 000 jetons signifie que vous devez choisir ce qui est important.
Les fenêtres de contexte plus longues ne rendent pas les modèles plus intelligents, mais elles rendent certains flux de travail possibles : analyse de documents entiers, maintien d’une mémoire détaillée au sein d’une conversation, traitement de matériel source plus long pour les systèmes RAG.
Entraînement vs Inférence : pourquoi les informations anciennes sont périmées
Les modèles sont entraînés une fois. Ensuite, ils effectuent l’inférence, le processus de génération de sorties à partir des entrées utilisateur.
Les données d’entraînement de Claude 3.5 Sonnet ont une date limite en avril 2024. Tout ce qui est postérieur à cette date, il ne le saura pas. Ce n’est pas un défaut, c’est une réalité structurelle. Les modèles ne naviguent pas sur Internet et ne se mettent pas à jour. Si vous avez besoin d’informations actuelles, vous devez les leur fournir, c’est pourquoi le RAG (Retrieval-Augmented Generation) existe.
Ce que cela signifie pour vous demain
Considérez les LLM comme des résumeurs et des metteurs en forme experts, pas comme des moteurs de recherche ou des bases de données factuelles.
Si vous construisez avec des LLM, commencez par tester sur un petit lot avant de passer à l’échelle. Envoyez 10 exemples à Claude avec votre invite exacte. Observez ce qui ne fonctionne pas. Les échecs que vous constatez ne sont pas aléatoires ; ce sont des modèles prévisibles dans la façon dont les calculs de probabilités du modèle échouent. Corrigez l’invite, testez à nouveau. Ce cycle est plus rapide que d’itérer en production.
Si vous évaluez un LLM pour une tâche spécifique, vérifiez d’abord sa fenêtre de contexte, pas son nom. Un modèle local plus petit avec 32K jetons pourrait surpasser un modèle cloud plus grand avec 4K jetons sur votre charge de travail réelle. Testez les deux avant de vous engager.