Basalt Studio logo
Basalt Studio.Basalt Studio.
Back

Gestion de Contexte Adaptative pour les Agents IA de Production

Eliott Ardisson

Eliott Ardisson

Founder & CEO - Basalt Studio

Updated
insights

Comprendre la gestion de contexte adaptative pour déployer des agents IA fiables en production : principes, mécanismes clés et cas d'usage concrets pour les PME.

ai agents
automation
programmatic

Points clés

  • Les agents IA de production échouent rarement à cause du modèle lui-même — ils échouent à cause d’une mauvaise gestion du contexte lors de tâches longues ou complexes
  • La fenêtre de contexte d’un LLM est une contrainte physique : dépasser la limite provoque des erreurs système ; s’en approcher trop dégrade silencieusement la qualité des réponses
  • La gestion de contexte adaptative ne consiste pas à tronquer l’historique, mais à décider intelligemment quoi conserver, quoi compresser et quoi archiver selon les objectifs actifs de l’agent
  • Cette approche est particulièrement critique dans les environnements où les agents coordonnent de nombreux outils, traitent des documents volumineux ou opèrent sur des cycles de plusieurs jours
  • L’implémentation repose sur une architecture en couches : analyse de pertinence en temps réel, compression sélective des sorties d’outils, et hiérarchisation dynamique des informations

La vraie raison pour laquelle vos agents IA tombent en production

Un agent IA qui fonctionne en démonstration mais s’effondre en production : c’est probablement l’expérience la plus frustrante pour une équipe qui cherche à automatiser des processus métier réels. La cause n’est presque jamais le modèle de langage lui-même. C’est la gestion du contexte.

Les LLM (grands modèles de langage) traitent les informations dans ce qu’on appelle une fenêtre de contexte — une quantité maximale de texte qu’ils peuvent lire et produire en un seul appel. Au-delà de cette limite, l’appel échoue. Avant même d’y arriver, un contexte mal géré dégrade les performances : l’agent se “dilue” dans un historique encombré et perd sa capacité à identifier ce qui est réellement important.

Pour un cabinet d’avocats qui automatise la qualification de dossiers, un agent qui analyse un contrat de 40 pages combiné à un historique d’échanges emails peut atteindre sa limite en deux ou trois échanges seulement. Pour un cabinet de recrutement qui gère simultanément des dizaines de profils candidats sur plusieurs jours, le problème est encore plus aigu.

La gestion de contexte adaptative est la réponse technique à ce problème. Elle désigne les mécanismes qui permettent à un agent de décider, à chaque étape, quelles informations conserver intégralement, lesquelles compresser et lesquelles archiver — en fonction de ce qu’il est en train de faire, pas de ce qu’il a fait.


Ce que signifie concrètement “fenêtre de contexte”

Avant d’expliquer la solution, il faut être précis sur le problème.

Un LLM ne possède aucune mémoire persistante entre les appels. Chaque fois qu’un agent appelle le modèle, il repart de zéro. Si vous voulez que l’agent se souvienne des échanges précédents, des résultats d’outils, des instructions initiales — vous devez tout renvoyer à chaque appel, dans le corps de la requête.

La fenêtre de contexte, mesurée en tokens (unités de texte approximativement équivalentes à trois quarts d’un mot en anglais, moins en français), définit la taille maximale de cette requête. Les modèles actuels ont des fenêtres allant de 128 000 à plusieurs millions de tokens selon les versions. Cela semble beaucoup — jusqu’à ce que vous commenciez à y injecter des documents, des sorties d’outils, des transcriptions et un historique de conversation qui grandit à chaque tour.

Deux effets néfastes surviennent alors :

L’échec franc : vous dépassez la limite et l’appel retourne une erreur. L’agent s’arrête. Le processus est interrompu.

La dégradation silencieuse : avant d’atteindre la limite, la qualité des réponses se dégrade. Des études en NLP documentent ce qu’on appelle l’effet “lost in the middle” — les modèles ont du mal à utiliser efficacement les informations situées au milieu d’un long contexte, en accordant trop de poids au début et à la fin. Un agent dont le contexte est à 75% de sa capacité avec un historique peu pertinent produit des réponses moins précises qu’un agent avec un contexte plus court mais bien ciblé.


Les trois approches pour gérer ce problème — et pourquoi deux d’entre elles échouent

Approche 1 : Tout garder

Renvoyer l’intégralité de l’historique à chaque appel. Simple à implémenter, fonctionnelle pour les démonstrations courtes. Elle cède rapidement en production dès que les échanges s’allongent ou que les sorties d’outils sont volumineuses.

Approche 2 : Troncature mécanique

Supprimer les messages les plus anciens dès que le contexte dépasse un seuil. Plus robuste que l’approche naïve, mais aveugle : elle peut éliminer des informations critiques (instructions initiales, contraintes spécifiques, données de référence) pour conserver des informations anodines simplement parce qu’elles sont plus récentes.

Imaginez un agent de facturation qui, après dix échanges, supprime les instructions de format requises par le client pour garder les dernières confirmations de montants. Le résultat est une facture mal formatée — un échec discret mais coûteux.

Approche 3 : Gestion adaptative

Le système évalue en continu la pertinence de chaque élément du contexte par rapport aux objectifs actifs de l’agent, et prend des décisions de conservation, compression ou archivage de façon ciblée. C’est l’approche qui tient en production.


Comment fonctionne la gestion de contexte adaptative en pratique

Analyse de pertinence en temps réel

À chaque appel, le système calcule un score de pertinence pour chaque bloc d’information dans le contexte. Ce score prend en compte plusieurs dimensions : la proximité temporelle, la relation avec la tâche en cours, la fréquence à laquelle cet élément a été référencé dans les tours précédents, et son impact probable sur les décisions futures.

Un bloc d’information avec un score faible ne disparaît pas nécessairement — il peut être compressé ou déplacé dans un cache secondaire récupérable si nécessaire.

Compression intelligente des sorties d’outils

C’est souvent là que se joue l’essentiel. Une sortie d’outil — le résultat d’une requête base de données, d’un appel API, d’une extraction de document — peut facilement peser plusieurs milliers de tokens. Dans un workflow qui enchaîne dix appels d’outils, la somme de ces sorties peut saturer le contexte avant même que l’agent ait eu le temps de raisonner sur les résultats.

La gestion adaptative intercepte ces sorties volumineuses et présente à l’agent un aperçu structuré. L’agent choisit alors :

  • Compresser selon des instructions ciblées : “Extraire uniquement les clauses de résiliation et les montants engagés.” Un modèle rapide et peu coûteux applique la compression selon ces instructions précises.
  • Conserver l’aperçu : si le résumé automatique est suffisant pour la décision à prendre.
  • Conserver intégralement : si l’information complète est nécessaire, en acceptant l’impact sur l’espace disponible.

Cette décision appartient à l’agent, pas à une règle mécanique. C’est ce qui distingue la compression adaptative de la troncature.

Hiérarchisation dynamique du contexte

Le système organise le contexte en couches de priorité :

  1. Contexte critique : instructions système, objectifs de la tâche en cours, contraintes non négociables. Jamais compressé, jamais archivé.
  2. Contexte actif : informations directement utiles à l’étape actuelle du workflow.
  3. Contexte de référence : historique pertinent, données de support, résultats d’outils déjà traités.
  4. Contexte archivé : informations potentiellement utiles mais non nécessaires immédiatement, stockées en dehors de la fenêtre et récupérables sur demande.

Quand la pression sur la fenêtre augmente, le système compresse ou archive en remontant depuis la couche 4. La couche 1 est intouchable.


Cas d’usage concrets dans les PME

Cabinet juridique — analyse de dossiers complexes

Un agent chargé d’analyser des dossiers contentieux doit traiter des contrats, des jugements de référence, des échanges de mails et des notes internes. Sans gestion adaptative, l’agent atteint sa limite après quelques documents. Avec compression sélective des pièces annexes et archivage des échanges anciens, l’agent peut travailler sur un dossier complet en maintenant sa précision d’analyse tout au long du processus.

Agence de recrutement — suivi de candidats sur plusieurs semaines

Un agent de qualification de candidats interagit avec un même profil sur plusieurs jours : entretiens successifs, vérifications de références, échanges avec le client. L’historique s’allonge rapidement. La gestion adaptative conserve les évaluations structurées, compresse les transcriptions d’entretien en points clés, et archive les échanges administratifs — permettant à l’agent de raisonner sur l’ensemble du parcours candidat sans jamais saturer.

Entreprise de services comptables — clôture mensuelle

Un agent qui assiste à la clôture mensuelle traite des extraits bancaires, des justificatifs, des données ERP et des règles fiscales spécifiques. Le volume de données est élevé mais une grande partie n’est pertinente que pour une étape précise du processus. La hiérarchisation contextuelle permet à l’agent de se concentrer sur les données actives tout en gardant les règles fiscales toujours accessibles.

Prestataire HVAC — coordination de chantiers

Un agent qui coordonne des interventions techniques reçoit des rapports terrain, des bons de commande, des contraintes de planning et des historiques d’équipements. La compression des rapports antérieurs et l’archivage des commandes clôturées permettent à l’agent de rester opérationnel sur des cycles de plusieurs semaines.


Ce que cela change architecturalement

Dans les implémentations que nous construisons chez Basalt Studio pour des PME de services, la gestion de contexte adaptative n’est pas un module à brancher sur un agent existant. C’est un choix d’architecture qui doit être pensé dès le départ.

Les décisions clés à prendre lors de la conception :

  • Où stocker le contexte archivé : en mémoire, en base de données vectorielle, ou dans un cache structuré récupérable par l’agent
  • Quel modèle utilise la compression : un modèle rapide et économique est généralement préférable pour les tâches de résumé, distinct du modèle principal qui raisonne
  • Comment définir les règles de priorité : spécifiques au domaine métier, pas génériques — les critères de pertinence d’un agent juridique sont différents de ceux d’un agent RH
  • Comment tracer les décisions contextuelles : crucial pour les secteurs réglementés qui doivent pouvoir expliquer le raisonnement d’un agent automatisé

La question du stockage du contexte archivé est souvent sous-estimée. Utiliser une base vectorielle pour stocker les blocs d’information compressés, avec un mécanisme de récupération par similarité sémantique, permet à l’agent de retrouver des informations archivées sans avoir besoin de tout recharger.


Pièges courants lors de l’implémentation

Compresser le mauvais niveau : compresser les instructions système pour gagner de la place est une erreur fréquente dans les implémentations mal structurées. Si les règles de comportement de l’agent se retrouvent résumées vaguement, son comportement devient imprévisible.

Ignorer les métadonnées : conserver le contenu compressé sans les métadonnées associées (source, date, contexte de génération) rend le contexte archivé difficile à exploiter correctement lors de la récupération.

Sur-compresser les sorties d’outils critiques : dans un workflow de validation financière, réduire trop agressivement une sortie d’outil peut faire disparaître des données chiffrées importantes. Les règles de compression doivent être calibrées par type de donnée, pas uniformément.

Ne pas tester à la longueur de conversation réelle : la plupart des bugs de gestion contextuelle n’apparaissent qu’après vingt ou trente tours d’échanges. Tester uniquement sur des sessions courtes donne une fausse impression de robustesse.


Par où commencer

La gestion de contexte adaptative est un investissement d’architecture, pas un paramètre. Si vos agents actuels rencontrent des échecs non déterministes ou des baisses de qualité sur les tâches longues, c’est le premier endroit où chercher.

Avant d’implémenter quoi que ce soit, il est utile de cartographier vos workflows existants pour identifier les points de génération de contexte volumineux : quels outils produisent les sorties les plus lourdes, à quelle fréquence, et quelle fraction de cette information est réellement utilisée dans les décisions suivantes. Cet audit oriente directement les choix de compression et de hiérarchisation.

La transition d’un agent de démonstration vers un agent de production fiable passe presque toujours par là.

Si vous voulez en discuter à partir de vos cas d’usage concrets, vous pouvez réserver un appel stratégie IA avec notre équipe : cal.com/eliott-ardisson-kzq7zs/ai-strategy-call