Learning Lab avril 16, 2026 · 5 min read

Gestion de la fenêtre de contexte : traiter de longs documents sans perte de données

Les limites de la fenêtre de contexte cassent les systèmes d'IA en production. Découvrez trois techniques concrètes pour traiter de longs documents et conversations sans perdre de données ni alourdir les coûts des API.

Votre appel API se termine. Claude ou GPT-4o renvoie une réponse. Mais quelque part au milieu de votre document de 8 000 mots, il a cessé de faire attention. Non pas parce que le modèle s’est cassé — mais parce que vous avez épuisé la fenêtre de contexte.

La fenêtre de contexte est le nombre maximum de jetons qu’un LLM peut traiter en une seule requête. Claude 3.5 Sonnet gère 200 000 jetons. GPT-4o gère 128 000 jetons. Llama 3 70B gère 8 000 jetons. Dépassez cette limite, votre requête échoue. Restez en dessous mais surchargez trop, l’attention du modèle se dégrade sur le matériel enfoui au milieu — un phénomène appelé problème de « perdu au milieu ».

Ce n’est pas une limitation théorique. Cela casse des systèmes de production réels : des chatbots de support client qui ne peuvent pas se souvenir des premiers échanges de conversation, des pipelines d’analyse de documents qui manquent des sections critiques et des flux de travail de recherche qui s’étouffent sur des PDF.

Comment fonctionne réellement la fenêtre de contexte

Chaque mot, chiffre, signe de ponctuation et espace est converti en jetons avant que le modèle ne le traite. Un jeton ≈ 4 caractères en anglais, mais varie selon la langue et la structure.

Une fenêtre Claude Sonnet de 200 000 jetons se décompose comme suit :

Invite système : 500 jetons
Entrée utilisateur (votre document) : 150 000 jetons
Historique de conversation : 30 000 jetons
Réservé pour la sortie : 19 500 jetons

Il vous reste 19 500 jetons pour la réponse du modèle. Si vous avez besoin d’une analyse détaillée, c’est suffisant. Si vous avez besoin de plusieurs étapes de raisonnement, vous êtes à la limite.

Les mathématiques sont rigides : jetons d’entrée + jetons de sortie ≤ fenêtre de contexte. Dépassez-la, et la plupart des fournisseurs d’API rejettent la requête avec une erreur 400. Certains services la mettent en file d’attente. Aucun ne la tronque silencieusement.

Le problème de la perte au milieu est réel

En septembre 2023, des chercheurs du MIT ont testé si les LLM utilisaient réellement tout le contexte qu’ils prétendent prendre en charge. Ils ont inséré un fait clé à différentes positions d’un long document et ont demandé au modèle de le récupérer.

Le constat : les modèles obtiennent les meilleurs résultats sur les informations situées au début et à la fin du contexte. Les informations au milieu — positions 40 à 60 % du document — sont traitées avec une précision inférieure de 25 à 35 % par rapport aux mêmes informations au début.

Ce n’est pas spécifiquement un problème de Claude ou de GPT-4o. Cela affecte tous les modèles basés sur des transformeurs. La raison : les modèles d’attention dans les modèles linguistiques pondèrent plus fortement les jetons précédents par défaut, et le modèle « économise » de la capacité pour le résumé et la réponse finaux.

Impact pratique : si votre bot de support client traite une conversation de 5 messages, les premiers messages reçoivent un traitement dégradé. Si votre analyseur de documents traite un PDF de 50 pages, les pages 20 à 30 deviennent invisibles.

Technique 1 : Résumer avant de traiter

Au lieu d’envoyer le document entier, comprimez-le d’abord.

# Mauvaise approche : envoyer le document complet
Utilisateur : « Analysez ce contrat de 30 pages. Quelles sont les obligations clés ? »
[envoyer le contrat complet de 30 pages en entrée]

Le modèle utilise une précieuse fenêtre de contexte sur des sections standard qui n’ont pas d’importance.

# Approche améliorée : processus en deux étapes
Étape 1 : Résumer le document
Invite : « Résumez ce contrat en 500 jetons. Conservez les obligations, les délais et les modalités de paiement. Supprimez le contenu standard. »
[envoyer le contrat complet]
Sortie : résumé de 500 jetons

Étape 2 : Analyser le résumé
Invite : « Sur la base de ce résumé, listez toutes les obligations des contreparties et quelle partie supporte chaque risque. »
[envoyer le résumé de 500 jetons]
Sortie : analyse structurée

Pourquoi cela fonctionne : vous utilisez la fenêtre de contexte lors du premier appel pour extraire le signal, puis vous traitez uniquement le signal lors du second appel. Le second appel est plus rapide, moins cher et plus précis car le modèle travaille avec des informations distillées.

Économies réelles de jetons : un contrat de 50 pages (≈25 000 jetons) devient un résumé de 500 jetons. Votre deuxième appel d’analyse passe de 25 500 jetons à 1 000.

Technique 2 : Diviser et réorganiser l’historique de conversation

Les conversations longues sont le problème de contexte le plus difficile car chaque nouveau message s’ajoute à l’historique. Après 15 échanges, vous avez consommé 8 000 à 15 000 jetons rien que pour la mémoire de conversation.

# Problème : l'historique de conversation gonfle
Tour de conversation 20 :
Système : [invite système d'origine]
Utilisateur : [tour 1]
Assistant : [réponse]
Utilisateur : [tour 2]
Assistant : [réponse]
... [tours 3–19] ...
Utilisateur : [tour 20] <- nouveau message
Assistant : [le modèle répond]

Au tour 20, le modèle a vu plus de 15 échanges non pertinents avant d'atteindre la question actuelle. Au tour 50, le contexte est principalement un poids mort.

Solution : utiliser une approche de réorganisation.

Après chaque 8 à 10 tours, notez chaque message historique par pertinence par rapport au fil de conversation actuel à l'aide d'embeddings ou d'un modèle linguistique léger. Ne conservez que les 5 à 7 tours passés les plus pertinents, plus les 2 tours les plus récents. Jetez le reste.

import openai

from sklearn.metrics.pairwise import cosine_similarity

import numpy as np
def prune_conversation_history(history, current_message, max_turns=7):

    # Intégrer tous les messages utilisateur passés

    past_messages = [h[



            
            
                
                                        
                        Batikan
                        
                            avril 16, 2026
                                                        ·
                            5 min read
                        
                    
                
            

            
                                    
                
                    
                    Topics & Keywords                
                
                                            
                            Learning Lab                        
                                                                                    
                            les                        
                                            
                            des                        
                                            
                            contexte                        
                                            
                            une                        
                                            
                            fenêtre                        
                                            
                            les modèles                        
                                            
                            est                        
                                            
                            votre                        
                                    
            
            
            
            
                Share
                
                    
                
                
                    
                
            


            
            
                
                    Stay ahead of the AI curve
                
                Weekly digest of the most impactful AI breakthroughs, tools, and strategies.
                
                    
                                        
                        
                    
                    
                    
                
            

            
            
                                                    
                                                    
                                                            
                                                
                            ← Previous
                            Construire des Agents IA : Architecture, Appels d’Outils et Gestion de la Mémoire
                        
                    
                                                    
                                                    
                                                            
                                                
                            Next →
                            DeepL ajoute la traduction vocale. Ce que cela change pour les équipes



    
        
        
            
                
                Related Articles            
            
                                        
    

                    
                                
            
        
        
                        
                Learning Lab            
            
            
                Construire des Agents IA : Architecture, Appels d’Outils et Gestion de la Mémoire            

            
                Apprenez à construire des agents IA prêts pour la production en maîtrisant les contrats d'appel d'outils, en structurant correctement les boucles d'agents et en séparant la mémoire en couches de session, de connaissance et d'exécution. Inclut des exemples de code Python fonctionnels.            

            
                
                    Avr 15, 2026
                    ·
                    6 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                Learning Lab            
            
            
                Connectez les LLM à vos outils : mise en place d’une automatisation de flux de travail            

            
                Connectez ChatGPT, Claude et Gemini à Slack, Notion et Sheets via des API et des plateformes d'automatisation. Découvrez les compromis entre les modèles, créez un bot Slack fonctionnel et automatisez votre premier flux de travail dès aujourd'hui.            

            
                
                    Avr 15, 2026
                    ·
                    6 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                Learning Lab            
            
            
                Zero-Shot vs Few-Shot vs Chain-of-Thought : Choisissez la bonne technique            

            
                Le zero-shot, le few-shot et le chain-of-thought sont trois techniques d'invite distinctes avec des profils de précision, de latence et de coût différents. Apprenez quand utiliser chacune, comment les combiner et comment mesurer quelle approche fonctionne le mieux pour votre tâche spécifique.            

            
                
                    Avr 15, 2026
                    ·
                    7 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                Learning Lab            
            
            
                10 workflows ChatGPT pour gagner du temps en entreprise            

            
                ChatGPT vous fait gagner des heures en lui donnant structure et contraintes claires. Voici 10 workflows de production — de la rédaction d'e-mails à l'analyse concurrentielle — qui réduisent le travail répétitif de moitié, avec des prompts fonctionnels à utiliser dès aujourd'hui.            

            
                
                    Avr 15, 2026
                    ·
                    8 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                Learning Lab            
            
            
                Arrêtez les Prompts Génériques : Techniques Spécifiques aux Modèles Qui Fonctionnent Vraiment            

            
                Claude, GPT-4o et Gemini répondent différemment au même prompt. Découvrez des techniques spécifiques aux modèles qui exploitent les forces de chacun, avec des exemples concrets utilisables dès aujourd'hui.            

            
                
                    Avr 15, 2026
                    ·
                    3 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                Learning Lab            
            
            
                Écrire comme un humain : le contenu IA sans la voix robotique            

            
                Le contenu généré par IA se résume à la moyenne : sûr, professionnel et indiscernable. Découvrez quatre techniques pour injecter une vraie voix dans vos sorties : contraintes de spécificité, correspondance de modèles de votre propre écriture, réglage de la température et audit de contraintes qui supprime les schémas robotiques.            

            
                
                    Avr 14, 2026
                    ·
                    5 min read
                
                →
            
        
    
    
                                
        
    
    
    
        
        
            
                
                More from Prompt & Learn            
            
                                        
    

                    
                                
            
        
        
                        
                AI Tools Directory            
            
            
                Figma IA vs Canva IA vs Adobe Firefly : Comparatif des outils de design            

            
                Figma IA, Canva IA et Adobe Firefly adoptent des approches différentes pour le design génératif. Figma privilégie l'intégration transparente ; Canva privilégie la vitesse ; Firefly privilégie la qualité des résultats. Voici quel outil correspond à votre flux de travail réel.            

            
                
                    Avr 16, 2026
                    ·
                    6 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                AI Tools Directory            
            
            
                DeepL ajoute la traduction vocale. Ce que cela change pour les équipes            

            
                DeepL a annoncé la traduction vocale en temps réel pour Zoom et Microsoft Teams. Contrairement aux solutions existantes, elle s'appuie sur la force de DeepL en traduction textuelle — des modèles de traduction directe avec une latence réduite. Voici pourquoi c'est important et où cela échoue.            

            
                
                    Avr 16, 2026
                    ·
                    4 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                AI Tools Directory            
            
            
                10 outils IA gratuits qui sont rentables en 2026            

            
                Dix outils IA gratuits qui remplacent réellement les SaaS payants en 2026 : Claude, Perplexity, Llama 3.2, DeepSeek R1, GitHub Copilot, OpenRouter, HuggingFace, Jina, Playwright et Mistral. Chacun testé dans des flux de travail réels avec des limites de débit réalistes, des benchmarks de précision et des comparaisons de coûts.            

            
                
                    Avr 15, 2026
                    ·
                    7 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                AI Tools Directory            
            
            
                Copilot vs Cursor vs Windsurf : Quel assistant de codage choisir en 2026 ?            

            
                Trois assistants de codage dominent en 2026. Copilot reste sûr pour les entreprises. Cursor gagne en vitesse et précision pour la plupart des développeurs. Le mode agent de Windsurf exécute réellement le code pour éviter les hallucinations. Voici comment choisir.            

            
                
                    Avr 15, 2026
                    ·
                    5 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                AI Tools Directory            
            
            
                Les outils IA qui vous font gagner des heures chaque semaine            

            
                J'ai testé 30 outils de productivité IA dans les domaines de l'écriture, du codage, de la recherche et des opérations. Seuls 8 ont permis de gagner un temps mesurable. Voici quels outils ont un ROI réel, les flux de travail où ils excellent et pourquoi la plupart des "outils de productivité IA" échouent.            

            
                
                    Avr 14, 2026
                    ·
                    16 min read
                
                →
            
        
    
    
                                            
    

                    
                                
            
        
        
                        
                AI News            
            
            
                Le système de filigrane IA de Google prétendument piraté. Voici ce que cela signifie            

            
                Un développeur affirme avoir rétro-conçu le système de filigrane SynthID de Google DeepMind en utilisant un traitement de signal basique et 200 images. Google conteste l'affirmation, mais l'incident soulève des questions sur la fiabilité du filigrane comme défense contre l'utilisation abusive du contenu généré par l'IA.            

            
                
                    Avr 14, 2026
                    ·
                    4 min read
                
                →