Le constat de départ
La génération augmentée par récupération (RAG) est le schéma qui se cache derrière la plupart des assistants d'IA utiles sur du contenu privé : au lieu de s'appuyer sur ce qu'un modèle a appris à l'entraînement, le système récupère les passages pertinents dans vos propres documents et les donne au modèle comme ancrage, de sorte que la réponse repose sur vos données et peut citer sa provenance.
C'est le bon outil pour une tâche précise : répondre à des questions sur un corpus de connaissances qui change et sur lequel le modèle n'a jamais été entraîné, vos politiques, vos billets, vos contrats, vos documents produit. C'est aussi largement mal employé, greffé sur des problèmes qu'une simple invite résoudrait, ou choisi alors que le vrai besoin était de changer le comportement du modèle plutôt que ses faits.
Ce texte en est la version pratique : ce qu'est la RAG, quand elle l'emporte sur les solutions de rechange, ce qui fait la différence entre un assistant de connaissances auquel les gens font confiance et un qu'ils cessent discrètement d'utiliser, et comment nous les construisons et les exploitons pour qu'ils restent exacts après le lancement.
Ancrer, pas mémoriser
Un modèle de langage en sait beaucoup en général et rien sur votre entreprise en particulier. La RAG comble cet écart au moment de la requête.
Quand un utilisateur pose une question, un système RAG récupère d'abord les fragments les plus pertinents de votre contenu indexé, puis les transmet au modèle avec la question et la consigne de répondre à partir du matériel fourni et de le citer. Le modèle ne devine plus à partir de données d'entraînement ; il lit vos documents et les résume. C'est ce qui rend la réponse actuelle, précise et vérifiable.
Les deux moitiés comptent à parts égales, et la plupart des échecs sont des échecs de récupération, pas des échecs de modèle. Si l'étape de récupération fait remonter les mauvais passages, même le meilleur modèle produit une réponse assurée, fausse et bien rédigée. Un assistant de connaissances ne vaut que ce qu'il récupère, raison pour laquelle les parties ingrates (comment les documents sont découpés, comment ils sont vectorisés, comment la récupération est notée) décident si la chose fonctionne.

Récupération, réglage fin, ou simplement une invite plus longue
Choisissez la RAG quand les réponses doivent être ancrées dans un corpus qui est vaste, changeant, ou les deux, et quand citer la source compte. Choisissez le réglage fin quand vous devez changer la façon dont le modèle se comporte, son ton, son format ou une compétence pointue, et non les faits qu'il connaît ; le réglage fin enseigne un style et des schémas, pas un corpus de connaissances en mouvement. Choisissez une simple invite quand la connaissance est assez petite pour être collée dans le contexte, auquel cas la récupération est une surcharge dont vous n'avez pas besoin.
Ce ne sont pas des choix mutuellement exclusifs, et les systèmes les plus solides les combinent : un modèle réglé finement ou bien guidé pour le comportement, la RAG pour les faits. L'erreur que nous voyons le plus souvent, c'est de régler finement un modèle sur les documents d'une entreprise dans l'espoir qu'il les mémorisera. Ça ne fonctionne pas de façon fiable : le modèle mélange les faits, ne peut pas citer, et devient périmé dès qu'un document change. Si l'exigence est d'obtenir des réponses exactes à partir de documents actuels, c'est la RAG, chaque fois.
Se tromper sur ce choix coûte cher dans les deux directions. Nous avons vu des projets de réglage fin qui auraient dû être une construction RAG de deux semaines, et des pipelines RAG élaborés pour une base de connaissances qui tenait dans une seule invite. Nous nommons la raison du choix avant de construire, parce que l'architecture est difficile à défaire plus tard.

Contrôle d'accès, ancrage et un jeu d'évaluation
Trois choses séparent un assistant de connaissances que vous pouvez placer devant des employés ou des clients d'une simple démonstration. La première est le contrôle d'accès à la couche de récupération : l'assistant ne doit récupérer que dans les documents que l'utilisateur courant est autorisé à voir, appliqué au moment de l'exécution de la requête, et non filtré après coup. Un assistant qui peut faire remonter un document qu'un utilisateur n'aurait jamais dû voir est une fuite de données avec une interface conviviale.
La deuxième est l'ancrage et la citation : chaque réponse renvoie aux passages dont elle est issue, afin qu'un utilisateur puisse la vérifier et qu'un réviseur puisse l'auditer. Les assistants qui répondent sans citation entraînent les gens à leur faire aveuglément confiance, ce qui est exactement à rebours pour toute chose porteuse. La troisième est la mesure : un jeu d'évaluation noté qui évalue l'exactitude des réponses et leur ancrage à chaque changement, afin que les régressions de qualité soient prises en développement plutôt que par un client en production.
La connaissance change aussi, donc la récupération doit être maintenue : réindexer à mesure que les documents évoluent, et surveiller la qualité de la récupération pour repérer la lente dégradation qui érode la confiance trimestre après trimestre. La construction est la partie facile ; c'est la posture d'exploitation qui la garde exacte un an plus tard.

Trois engagements sur chaque construction d'assistant de connaissances
Nous construisons le pipeline complet et le remettons, avec le contrôle d'accès et les évaluations qui rendent sûr de lui faire confiance, puis nous l'exploitons jusqu'à ce que votre équipe le puisse.
La récupération avant la génération
Nous investissons là où se trouvent réellement les échecs : le découpage, les plongements et la notation de la récupération, mesurés sur un véritable jeu de questions de vos utilisateurs. Une bonne couche de récupération fait paraître excellent un modèle ordinaire ; une mauvaise rend peu fiable le meilleur des modèles.
Le contrôle d'accès n'est pas optionnel
Les permissions sont appliquées au moment de la requête, de sorte que l'assistant ne peut jamais faire remonter un document que l'utilisateur n'est pas autorisé à voir. Cela fait partie de l'architecture dès le premier jour, et non d'un filtre ajouté plus tard.
Mesuré, puis maintenu
Chaque assistant est livré avec un jeu d'évaluation qui note l'exactitude et l'ancrage à chaque changement, plus une surveillance de la dérive de récupération en production, et le pipeline de données et la base de référence d'évaluation qui le rendent maintenable après la remise.
Un assistant auquel les gens font réellement confiance
Un an plus tard, l'assistant est toujours exact, cite toujours ses sources, et n'a pas discrètement laissé fuir un document ni dérivé vers des absurdités assurées.
Le test honnête d'un assistant de connaissances n'est pas la démonstration de lancement ; c'est de savoir si les gens l'utilisent encore après l'avoir surpris à se tromper. La confiance se perd la première fois qu'un assistant invente une politique ou fait remonter quelque chose qu'il n'aurait pas dû, et elle est presque impossible à regagner. Voilà pourquoi l'ancrage, la citation et le contrôle d'accès ne sont pas du fignolage : ils sont le produit.
Les assistants qui restent dignes de confiance sont ceux qui ont été mesurés dès le départ et maintenus après le lancement. La qualité de la récupération est surveillée, le jeu d'évaluation grandit à mesure que de nouveaux modes d'échec sont découverts, et l'index suit le rythme des documents. Rien de tout cela n'est prestigieux, et c'est tout cela qui sépare un système dont la valeur se compose d'un système discrètement abandonné en deux trimestres.
Bien fait, un assistant de connaissances transforme le savoir dispersé et sous-utilisé d'une entreprise en quelque chose que chaque employé peut interroger en langage clair, avec des réponses qu'il peut vérifier. C'est un avantage durable, et il vous appartient : le pipeline, les évaluations et le code.

L'IA pour les fondateurs
les questions qu'on nous pose le plus.
Des réponses directes aux questions qu'on nous pose le plus souvent. Si la vôtre n'y est pas, écrivez à l'équipe.