Comment Améliorer GPT avec une Base de Connaissances pour une Expérience Utilisateur Optimale
Eliott Ardisson
Founder & CEO - Basalt Studio
Découvrez comment enrichir un LLM avec une base de connaissances métier via le RAG : architecture, étapes clés, erreurs à éviter et cas d'usage concrets pour les PME.
Points clés
- Les modèles de langage comme GPT ne connaissent que les données publiques jusqu’à leur date d’entraînement : sans enrichissement, ils ne peuvent pas répondre aux questions spécifiques à votre entreprise.
- Le RAG (Retrieval Augmented Generation) est l’architecture qui permet de connecter un LLM à vos documents internes sans réentraîner le modèle.
- La qualité de la base de connaissances dépend moins du volume de documents que de leur structuration et de leur maintenance.
- Avant de choisir une plateforme ou un outil, l’étape critique est l’audit de vos sources de données et la définition de cas d’usage précis.
- Une implémentation réussie nécessite un processus de maintenance continu, pas un projet ponctuel.
Ce que GPT ne peut pas faire seul
Un modèle de langage généraliste est entraîné sur des corpus publics. Il sait expliquer le droit des contrats, résumer un concept comptable ou rédiger une proposition commerciale générique. Ce qu’il ne sait pas, c’est quelle est votre politique tarifaire, comment votre équipe gère les litiges clients, ou quelle version de votre contrat-cadre est en vigueur depuis le trimestre dernier.
Ce n’est pas un défaut de conception : c’est simplement hors périmètre. Le modèle n’a jamais vu vos données internes. Et lui demander de deviner entraîne exactement le problème que redoutent les dirigeants qui se lancent dans l’IA conversationnelle : des réponses plausibles mais fausses, ou des aveux d’ignorance qui coupent court à l’interaction.
La solution n’est pas de réentraîner le modèle, ce qui est coûteux, long et inadapté à la majorité des PME. La solution est de lui fournir le bon contexte au bon moment, via une architecture RAG.
Qu’est-ce que le RAG — définition opérationnelle
Le RAG (Retrieval Augmented Generation) est une architecture qui découple la mémorisation de la génération. Plutôt que d’espérer que le modèle “sache” vos informations, on lui fournit les passages pertinents de votre documentation au moment où il formule sa réponse.
Le pipeline se décompose en trois phases :
- Indexation : vos documents sont découpés en segments, transformés en vecteurs numériques (embeddings) et stockés dans une base vectorielle.
- Récupération : quand un utilisateur pose une question, cette question est elle aussi transformée en vecteur, et les segments les plus proches sémantiquement sont récupérés.
- Génération : le LLM reçoit la question et les segments récupérés, et produit une réponse ancrée dans ce contexte.
Quelques termes clés à avoir en tête :
- Embedding : représentation numérique d’un texte qui capture sa signification sémantique. Deux phrases proches en sens auront des embeddings proches dans l’espace vectoriel.
- Chunking : découpage des documents en segments de taille maîtrisée, généralement entre 300 et 800 tokens, avec un léger chevauchement pour ne pas couper le sens.
- Base vectorielle : base de données optimisée pour la recherche par similarité, distincte d’une base relationnelle classique.
- Reranking : étape optionnelle qui réordonne les segments récupérés selon leur pertinence fine avant de les passer au LLM.
Étape 1 : auditer vos sources de connaissances avant de toucher à l’outillage
L’erreur la plus fréquente est de commencer par choisir une plateforme. La priorité, c’est d’abord de comprendre ce que vous voulez que le système sache.
Commencez par cartographier vos sources selon trois axes :
Documents structurés — procédures internes, fiches produit, guides tarifaires, FAQ, contrats types, politiques RH. Ces documents ont généralement une structure logique et sont relativement faciles à indexer.
Historique opérationnel — tickets support, échanges commerciaux, comptes rendus de réunion, rapports d’intervention. Ces données sont riches en cas réels mais souvent mal formatées.
Connaissances tacites — ce que vos collaborateurs savent mais n’ont jamais écrit. Ce type de connaissance nécessite un travail d’extraction explicite : interviews, ateliers, création de documents de référence.
Pour une première implémentation, concentrez-vous sur 20 à 40 documents critiques couvrant les questions les plus fréquentes. Mieux vaut un corpus restreint et propre qu’un entrepôt volumineux et bruité. McKinsey a documenté que la qualité des données d’entrée est systématiquement le facteur limitant dans les déploiements d’IA en entreprise, bien avant les choix technologiques.
Étape 2 : structurer les documents pour qu’ils soient exploitables
Un document Word de 40 pages sans titres, mélant procédures actives et exemples historiques, donnera des résultats médiocres même avec la meilleure architecture RAG. Le preprocessing des documents est souvent la phase la plus chronophage, et la plus déterminante.
Quelques règles pratiques :
- Utilisez des titres explicites et hiérarchisés. Le modèle d’embedding s’appuie sur le contexte de chaque segment. Un titre clair améliore la qualité de la représentation vectorielle.
- Séparez les procédures des exemples. Un document qui mélange “voici la règle” et “voici un cas où la règle ne s’applique pas” crée de la confusion lors de la récupération.
- Ajoutez des métadonnées systématiques : date de dernière mise à jour, auteur ou service responsable, version, statut (en vigueur / archivé). Ces métadonnées permettent de filtrer les résultats et d’éviter de servir des informations obsolètes.
- Évitez les documents de plus de 20 pages sans découpage logique. Préférez plusieurs documents courts et thématiques à un monolithe.
Le chunking lui-même mérite attention. Un chevauchement de 10 à 15 % entre segments adjacents préserve le contexte sur les coupures. Pour des documents très structurés (procédures, checklists), un chunking par section logique est souvent plus efficace qu’un chunking à taille fixe.
Étape 3 : choisir l’architecture selon votre réalité technique
Il n’existe pas une seule façon de construire un système RAG. Les choix dépendent de votre volume documentaire, de vos contraintes de sécurité, des compétences disponibles, et de vos cas d’usage.
RAG simple : une base vectorielle unique, un seul type de document, une seule langue. Adapté pour tester un cas d’usage précis avec un corpus homogène. Configuration accessible, résultats corrects sur des questions directes.
RAG hiérarchique : plusieurs niveaux d’indexation, récupération en deux temps (d’abord le document parent, puis le segment précis). Améliore significativement la précision sur des bases documentaires larges ou hétérogènes.
RAG hybride : combine la recherche vectorielle (sémantique) et la recherche par mots-clés (BM25). Utile quand les utilisateurs emploient des termes exacts (références produit, codes internes, noms propres) que la recherche vectorielle seule peut rater.
RAG multi-agents : plusieurs agents spécialisés par domaine, avec un orchestrateur qui route les questions. Pertinent pour des organisations avec des métiers très distincts (par exemple, un cabinet qui gère à la fois du droit social et du droit immobilier). C’est aussi l’architecture la plus complexe à maintenir.
Pour la plupart des PME de 10 à 100 personnes qui démarrent, un RAG hybride sur une base vectorielle bien structurée couvre 80 % des besoins sans sur-ingénierie.
Étape 4 : configurer la génération de réponses
Le prompt système est l’endroit où vous définissez le comportement du modèle. C’est aussi l’endroit où beaucoup d’implémentations échouent par excès de générosité.
Quelques principes qui tiennent à l’usage :
Instruisez le modèle à s’appuyer sur le contexte fourni, pas sur ses connaissances générales. Une instruction explicite du type “Réponds uniquement à partir des informations fournies dans le contexte. Si l’information n’est pas disponible, dis-le clairement” réduit drastiquement les hallucinations.
Définissez un comportement de repli clair. Quand la réponse n’est pas dans la base, le modèle doit le dire, pas inventer. Configurez un message de redirection vers un contact humain ou une ressource externe. C’est contre-intuitif, mais un “je ne sais pas, contactez X” est infiniment préférable à une réponse inventée.
Adaptez le registre au canal et au profil. Un agent de support interne pour vos techniciens HVAC n’a pas le même registre qu’un chatbot de premier contact pour des prospects sur un site de cabinet comptable. Le prompt système porte cette différence.
Gérez les conflits entre sources. Si deux documents donnent des instructions différentes sur le même sujet, le modèle doit pouvoir se référer à la date de mise à jour pour prioriser la version la plus récente. Cela suppose que vos métadonnées soient en ordre.
Les cinq erreurs qui font échouer les implémentations RAG
Dans notre travail chez Basalt Studio pour déployer des agents documentaires auprès de cabinets de conseil et d’agences RH, les mêmes problèmes reviennent systématiquement.
1. Indexer trop tôt, trop large. Vouloir tout mettre dans la base dès le départ est une erreur de méthode. Des documents contradictoires ou obsolètes dégradent la précision plus sûrement que l’absence de documents.
2. Négliger la maintenance. Une base de connaissances sans processus de mise à jour est périmée en six mois. Les tarifs changent, les procédures évoluent, les équipes tournent. Prévoyez un responsable désigné et un calendrier de révision.
3. Confondre précision technique et utilité perçue. Un système qui récupère les bons passages mais formule des réponses trop longues, trop formelles ou trop techniques sera abandonné par les utilisateurs. Testez avec de vraies personnes, pas uniquement avec des métriques.
4. Ignorer la gestion des accès. Tous les utilisateurs ne doivent pas voir toutes les informations. Un stagiaire n’a pas les mêmes droits qu’un associé. Implémentez un filtrage par rôle dès la conception, pas en correctif.
5. Traiter l’implémentation comme un projet IT. Un déploiement RAG réussi est autant un projet de gestion des connaissances qu’un projet technique. Sans implication des équipes métier pour valider les documents et tester les réponses, le système ne couvrira pas les vrais besoins.
Métriques pour mesurer ce qui fonctionne
Une fois en production, mesurez régulièrement ces indicateurs :
Côté technique :
- Précision de récupération : proportion de segments pertinents parmi ceux récupérés
- Temps de réponse : idéalement sous 3 secondes pour une expérience fluide
- Taux de “hors scope” : proportion de questions sans réponse dans la base. Un taux élevé indique des lacunes documentaires à combler.
Côté usage :
- Taux d’adoption : proportion des utilisateurs cibles qui utilisent activement le système après 30 jours
- Satisfaction déclarée : un questionnaire court après chaque interaction (utile/pas utile) suffit pour identifier les frictions
- Volume de tickets ou questions redirigées vers un humain : une baisse progressive indique que la base s’améliore
Forrester a documenté que les projets d’IA conversationnelle qui mettent en place des boucles de feedback utilisateur dès le lancement itèrent significativement plus vite et atteignent leur maturité opérationnelle en moins de temps. La mesure n’est pas un luxe de grande entreprise : c’est la condition pour progresser.
Scénarios concrets pour des secteurs courants
Cabinet juridique : un agent RAG indexant les modèles de contrats, la jurisprudence interne commentée et les procédures de traitement des dossiers permet aux collaborateurs juniors de répondre à des questions de premier niveau sans solliciter les associés. Le gain est sur le temps de recherche et la cohérence des réponses clients.
Agence de recrutement : un agent alimenté par les fiches de poste types, les grilles d’entretien et les comptes rendus de missions passées accélère la qualification des candidats et homogénéise les pratiques entre recruteurs.
Cabinet comptable : un assistant interne documenté sur les obligations déclaratives, les délais fiscaux et les procédures clients réduit les questions répétitives entre collaborateurs et accélère l’onboarding des nouvelles recrues.
Prestataire HVAC : un agent consultant les fiches techniques des équipements, les procédures d’intervention et les garanties fabricants permet aux techniciens terrain de trouver rapidement l’information sans rappeler le bureau.
Dans chacun de ces cas, le facteur clé n’est pas le modèle LLM choisi. C’est la qualité et la couverture de la base documentaire.
Checklist de mise en œuvre
Avant de démarrer :
- Identifier les 5 à 10 questions les plus fréquentes auxquelles le système doit répondre
- Localiser les documents qui contiennent les réponses
- Désigner un responsable de la base de connaissances côté métier
- Définir les niveaux d’accès selon les profils utilisateurs
Phase technique :
- Structurer et nettoyer les documents prioritaires
- Choisir le modèle d’embedding adapté à votre langue et domaine
- Configurer le chunking avec chevauchement
- Mettre en place les métadonnées (date, version, statut)
- Tester la récupération sur un jeu de questions représentatif
Déploiement et suivi :
- Former les utilisateurs cibles sur le périmètre du système
- Mettre en place un mécanisme de feedback simple
- Planifier une révision documentaire trimestrielle
- Suivre les métriques d’usage et de satisfaction mensuellement
Pour aller plus loin
Connecter un LLM à votre base de connaissances interne n’est pas un projet de quelques heures, mais ce n’est pas non plus un chantier de plusieurs années. Avec un corpus initial bien délimité et une architecture adaptée à votre volume documentaire, les premières valeurs opérationnelles sont visibles en quelques semaines.
Le vrai travail commence après le lancement : maintenir la base à jour, analyser les questions sans réponse, étendre progressivement la couverture. Ce cycle d’amélioration continue est ce qui distingue les déploiements qui tiennent dans la durée de ceux qui sont abandonnés après quelques mois d’enthousiasme.
Si vous souhaitez évaluer la faisabilité d’un tel projet pour votre organisation, discuter de l’architecture adaptée à votre contexte ou comprendre ce que représente concrètement ce type de déploiement, vous pouvez réserver un appel stratégie IA avec l’équipe Basalt Studio : https://cal.com/eliott-ardisson-kzq7zs/ai-strategy-call
