DSPy : Programmer - et non plus prompter - les modèles de langage

Eliott Ardisson

Founder & CEO - Basalt Studio

Feb 26, 2026

Updated May 23, 2026

insights

DSPy transforme l'ingénierie de prompts en approche programmatique et automatisée. Découvrez comment ce framework de Stanford change la manière de construire des pipelines IA robustes.

ai agents

automation

programmatic

En bref

DSPy remplace le bricolage de prompts par une approche programmatique : vous déclarez ce que vous voulez accomplir, le framework optimise comment y parvenir.
Trois composants clés structurent DSPy : les signatures (interface de la tâche), les modules (stratégies de raisonnement) et les optimiseurs (apprentissage automatique appliqué aux prompts).
Les bénéfices concrets pour une PME incluent une meilleure cohérence des outputs, une adaptabilité aux nouveaux modèles, et une réduction significative du temps consacré à l’itération manuelle sur les prompts.
Les limites sont réelles : DSPy exige des données d’entraînement de qualité, une certaine maturité technique, et des coûts d’infrastructure à anticiper avant de chercher à déployer en production.
La migration progressive est systématiquement préférable à un basculement total — commencer par un cas d’usage secondaire avant de toucher aux processus critiques.

Ce que DSPy change vraiment au quotidien

Si vous avez déjà passé plusieurs heures à reformuler un prompt pour qu’un modèle de langage produise ce que vous attendez — en changeant la formulation, en ajoutant des exemples, en réorganisant les instructions — vous avez vécu le problème que DSPy cherche à résoudre.

DSPy (Declarative Self-Improving Python) est un framework développé à Stanford dont la prémisse est simple : plutôt que d’écrire des prompts à la main et d’itérer manuellement, vous déclarez la structure logique de votre tâche, et le système optimise automatiquement les prompts sous-jacents en se basant sur vos données et vos métriques. En d’autres termes, vous programmez le comportement attendu ; DSPy trouve comment l’obtenir.

Ce glissement — du prompting artisanal à une ingénierie reproductible — a des implications pratiques importantes pour les équipes qui construisent des agents IA ou des pipelines de traitement automatisé.

Les trois composants fondamentaux de DSPy

Pour comprendre ce que DSPy fait concrètement, il faut saisir comment ses trois blocs de base s’articulent.

Signatures

Une signature dans DSPy définit l’interface d’une tâche : ce qui entre, ce qui sort. Pas comment le modèle doit le faire — juste quoi. Par exemple, texte_contrat -> risques_identifiés ou email_client -> catégorie_ticket, priorité. Cette abstraction sépare la définition de l’objectif de son implémentation, ce qui facilite les itérations et les tests.

Modules

Les modules implémentent différentes stratégies de raisonnement. Predict gère les tâches directes. ChainOfThought décompose automatiquement un problème en étapes intermédiaires avant de produire une réponse, ce qui améliore sensiblement les résultats sur des tâches complexes. ReAct permet d’enchaîner raisonnement et actions externes (appel d’API, recherche dans une base de données, etc.). Ces modules se combinent pour construire des pipelines multi-étapes.

Optimiseurs

C’est là que réside l’essentiel de la valeur. Les optimiseurs comme BootstrapFewShot analysent vos exemples d’entraînement pour générer automatiquement des few-shot examples optimaux. MIPROv2 va plus loin en utilisant des techniques d’optimisation bayésienne pour affiner chaque composant du pipeline de façon coordonnée. Le processus est itératif : tester des variantes de prompts, les évaluer sur vos métriques, sélectionner les meilleures combinaisons, recommencer.

Ce qui rend ce processus intéressant, c’est qu’il découvre souvent des formulations contre-intuitives que personne n’aurait testées manuellement. L’optimisation n’a pas de biais cognitifs.

Quelques définitions utiles

Prompt engineering : processus de rédaction et d’ajustement des instructions données à un modèle de langage pour obtenir un output souhaité. Traditionnellement manuel et non systématique.

Few-shot examples : exemples fournis dans un prompt pour guider le comportement du modèle sur une tâche. La sélection de ces exemples a un impact significatif sur la qualité des résultats.

Pipeline IA : enchaînement de plusieurs étapes de traitement faisant intervenir un ou plusieurs modèles de langage, potentiellement combinés avec des outils externes (recherche, bases de données, APIs).

Optimisation bayésienne : méthode d’optimisation statistique particulièrement efficace quand les évaluations sont coûteuses. DSPy s’en sert pour explorer l’espace des prompts possibles de façon intelligente plutôt qu’exhaustive.

Dérive de performance : dégradation progressive de la qualité d’un modèle en production, due à l’évolution des données réelles par rapport aux données d’entraînement.

Pourquoi c’est pertinent pour une PME, pas seulement pour des équipes data

La réaction habituelle face à un framework comme DSPy est : “c’est pour les labs de recherche, pas pour nous.” C’est compréhensible, mais inexact.

Les PME en services professionnels, en recrutement ou en e-commerce traitent souvent des volumes élevés de tâches répétitives avec une forte variabilité contextuelle : qualifier des leads entrants, analyser des candidatures, catégoriser des emails, rédiger des résumés de dossiers. Ce sont exactement les cas d’usage où le prompting manuel montre ses limites — les prompts statiques performent bien sur les cas fréquents, mal sur les cas atypiques, et personne ne sait vraiment pourquoi.

DSPy apporte deux choses à ces contextes. D’abord, une meilleure cohérence : l’optimisation sur des données réelles produit des systèmes qui se comportent de façon plus prévisible sur l’ensemble du spectre des cas. Ensuite, une adaptabilité structurelle : quand vous changez de modèle de base (parce qu’un nouveau modèle est plus performant ou moins cher), vos pipelines DSPy peuvent être re-optimisés sans tout réécrire.

McKinsey et d’autres cabinets ont documenté que la productivité des équipes utilisant l’IA de façon structurée surpasse celle des équipes qui bricolent leurs prompts au cas par cas. DSPy fournit précisément cette structure.

Cas d’usage concrets par secteur

Cabinet d’avocats ou d’expertise comptable

Un cabinet avec quelques dizaines de collaborateurs qui reçoit des contrats ou des liasses fiscales à analyser peut utiliser DSPy pour construire un pipeline d’analyse initiale. La signature déclare le type de document en entrée, les points d’attention identifiés en sortie. L’optimiseur s’entraîne sur des dizaines d’exemples annotés par les associés. Le résultat est un système qui pré-analyse les documents avec une cohérence que les prompts statiques ne fournissent pas — et qui s’adapte si le cabinet ajoute de nouvelles typologies de contrats à couvrir.

Agence de recrutement

Le screening de CV est chronophage et sujet aux biais. Un pipeline DSPy peut être entraîné sur des exemples de candidatures qualifiées et rejetées pour chaque type de poste, puis utilisé pour produire une première évaluation structurée. Ce n’est pas une décision automatisée — c’est un premier filtre qui fait gagner du temps aux recruteurs sur les dossiers clairement hors-cible.

E-commerce ou plateforme avec catalogue large

La génération et l’adaptation de descriptions produits selon différents contextes (fiche produit, email promotionnel, comparateur) est un cas d’usage naturel. DSPy permet de construire des pipelines qui s’adaptent au registre attendu selon le canal, entraînés sur des exemples validés par l’équipe marketing.

Support client

Le routage intelligent de tickets et la génération de premières réponses bénéficient d’une optimisation systématique. Les tickets de support ont une variété contextuelle élevée — DSPy gère mieux cette variété qu’un prompt unique rédigé à la main.

Les limites à ne pas minimiser

DSPy n’est pas une solution universelle. Avant d’investir du temps et de l’argent dans une implémentation, il faut avoir les yeux ouverts sur ses contraintes.

Qualité des données d’entraînement : DSPy optimise ce que vous lui donnez. Des exemples incohérents, mal annotés ou non représentatifs de votre distribution réelle produiront une optimisation décevante. Collecter et annoter 50 à 200 exemples de qualité par tâche prend du temps et nécessite l’implication des experts métier.

Courbe d’apprentissage : Le framework est plus accessible que l’entraînement de modèles from scratch, mais il suppose une familiarité avec Python et les concepts de base du machine learning. Les équipes sans background technique auront besoin d’accompagnement pour ne pas sous-exploiter les capacités.

Coûts d’infrastructure : La phase d’optimisation consomme significativement plus de tokens qu’un usage en production. Ces coûts sont à anticiper et à amortir sur le volume de production attendu.

Debugging complexe : Quand un pipeline optimisé produit des outputs inattendus, comprendre pourquoi est plus difficile qu’avec des prompts statiques. La nature du processus d’optimisation rend l’interprétabilité moins directe.

Pas un “set and forget” : Les modèles de base évoluent, vos données réelles évoluent. Un monitoring continu des métriques de performance en production est nécessaire pour détecter les dérives et déclencher des cycles de re-optimisation.

Comment aborder une implémentation

L’implémentation de DSPy suit une logique qu’on retrouve dans tout projet d’ingénierie sérieux : auditer avant de construire, migrer progressivement, mesurer rigoureusement.

Étape 1 — Identifier le bon cas d’usage initial : Choisissez une tâche répétitive avec un volume suffisant (plusieurs dizaines d’occurrences par semaine minimum), des critères de qualité définissables, et un impact mesurable sur les opérations. Évitez de commencer par vos processus les plus critiques.

Étape 2 — Constituer le dataset d’entraînement : Pour chaque tâche, rassemblez des exemples réels représentant la variété des cas que le système rencontrera en production. Cette étape est souvent sous-estimée et détermine largement la qualité finale.

Étape 3 — Définir les métriques : DSPy optimise ce que vous mesurez. Des métriques mal définies produisent des résultats mal alignés. Prenez le temps de définir précisément ce que “bon” signifie pour chaque output, idéalement avec les personnes qui utiliseront le système.

Étape 4 — Construire, entraîner, évaluer : Implémenter les signatures et les modules, lancer l’optimisation, évaluer les résultats sur un ensemble de validation distinct des données d’entraînement.

Étape 5 — Déployer progressivement : Commencer en parallèle du système existant, comparer les outputs, ajuster avant de basculer complètement. L’intégration avec les outils métier (CRM, helpdesk, etc.) se fait à cette étape.

Étape 6 — Monitorer en continu : Mettre en place des alertes sur les métriques clés et planifier des cycles de re-optimisation réguliers.

Dans notre travail avec des PME en services professionnels qui déploient ce type de pipeline, le point de rupture le plus fréquent n’est pas technique — c’est la qualité et la représentativité des données d’entraînement. Les équipes qui investissent sérieusement dans cette étape obtiennent des résultats durables ; celles qui la bâclent finissent par re-optimiser des pipelines médiocres.

DSPy dans l’écosystème IA actuel

DSPy s’intègre naturellement avec les outils qui composent la plupart des stacks IA modernes. Il fonctionne avec les principaux modèles (GPT, Claude via l’Anthropic SDK, les modèles accessibles via OpenRouter) et s’articule bien avec des orchestrateurs comme n8n pour les workflows automatisés. Ce n’est pas un remplacement de LangChain ou d’autres frameworks d’orchestration — c’est une couche d’optimisation qui s’ajoute à votre stack existant.

La trajectoire du projet est solide : des contributions actives de la communauté académique et industrielle, une adoption croissante dans les équipes ML, et une intégration progressive dans les plateformes d’IA enterprise. Gartner et d’autres analystes identifient l’automatisation de l’optimisation de prompts comme l’une des évolutions structurantes de l’IA applicative pour les prochaines années.

Pour aller plus loin

DSPy représente une maturation de l’ingénierie IA : passer du bricolage artisanal à une approche reproductible et mesurable. Pour une PME qui utilise ou envisage d’utiliser des agents IA dans ses opérations, comprendre ce que DSPy fait — et ce qu’il ne fait pas — permet de faire des choix d’architecture plus durables.

Si vous êtes à l’étape où vous vous demandez comment structurer votre stack IA pour qu’il tienne dans le temps sans dépendre d’une personne qui connaît les prompts par cœur, ça vaut la peine d’en parler concrètement.

Réservez un appel stratégie IA gratuit — Basalt Studio travaille avec des PME dirigées par leur fondateur pour concevoir et déployer des systèmes IA qui s’intègrent dans les opérations réelles, pas seulement dans les démos.