Qu'est-ce que la RAG, en termes simples ?

La génération augmentée par récupération. Quand vous posez une question, le système trouve les passages les plus pertinents dans vos propres documents et les donne au modèle d'IA comme contexte, de sorte que la réponse repose sur vos données plutôt que sur l'entraînement du modèle, et qu'il peut citer la source. C'est le schéma standard pour les assistants d'IA sur du contenu privé ou qui change fréquemment.

Devrions-nous utiliser la RAG ou régler finement un modèle ?

La RAG quand les réponses doivent être ancrées dans des faits actuels et citer une source. Le réglage fin quand vous devez changer le comportement, le ton ou le format du modèle, pas sa connaissance. Ils résolvent des problèmes différents et sont souvent combinés : un modèle au comportement maîtrisé pour le style, la RAG pour les faits. Si l'objectif est d'obtenir des réponses exactes à partir de vos documents, la réponse est la RAG.

Comment l'empêchez-vous de laisser fuir des documents que les gens ne devraient pas voir ?

Le contrôle d'accès est appliqué à la couche de récupération : quand un utilisateur pose une question, le système ne récupère que dans les documents que cet utilisateur est autorisé à voir, au moment de la requête. C'est intégré à l'architecture dès le premier jour plutôt qu'ajouté comme un filtre, car un assistant de connaissances qui peut faire remonter le mauvais document est une fuite de données.

Comment savez-vous que les réponses sont exactes ?

Un jeu d'évaluation noté évalue l'exactitude des réponses et leur ancrage à chaque changement durant le développement, et une surveillance veille sur la qualité de la récupération en production afin que la dégradation soit prise avant que les utilisateurs ne la remarquent. Chaque réponse cite aussi ses sources, de sorte que les réponses individuelles peuvent être vérifiées par la personne qui les lit.

Combien de temps faut-il pour construire un système RAG ?

Un assistant de connaissances ciblé sur un corpus défini représente généralement quelques semaines jusqu'à un système fonctionnel et mesuré, selon l'état des données. Des documents sources désordonnés ou éparpillés ajoutent du temps à l'étape de préparation des données, qui est habituellement là où se trouve le vrai travail.

Le RAG en entreprise : bâtir des assistants de connaissance qui fonctionnent vraiment

Le constat de départ

La génération augmentée par récupération (RAG) est le schéma qui se cache derrière la plupart des assistants d'IA utiles sur du contenu privé : au lieu de s'appuyer sur ce qu'un modèle a appris à l'entraînement, le système récupère les passages pertinents dans vos propres documents et les donne au modèle comme ancrage, de sorte que la réponse repose sur vos données et peut citer sa provenance.

C'est le bon outil pour une tâche précise : répondre à des questions sur un corpus de connaissances qui change et sur lequel le modèle n'a jamais été entraîné, vos politiques, vos billets, vos contrats, vos documents produit. C'est aussi largement mal employé, greffé sur des problèmes qu'une simple invite résoudrait, ou choisi alors que le vrai besoin était de changer le comportement du modèle plutôt que ses faits.

Ce texte en est la version pratique : ce qu'est la RAG, quand elle l'emporte sur les solutions de rechange, ce qui fait la différence entre un assistant de connaissances auquel les gens font confiance et un qu'ils cessent discrètement d'utiliser, et comment nous les construisons et les exploitons pour qu'ils restent exacts après le lancement.

Ce que c'est

Ancrer, pas mémoriser

Un modèle de langage en sait beaucoup en général et rien sur votre entreprise en particulier. La RAG comble cet écart au moment de la requête.

Quand un utilisateur pose une question, un système RAG récupère d'abord les fragments les plus pertinents de votre contenu indexé, puis les transmet au modèle avec la question et la consigne de répondre à partir du matériel fourni et de le citer. Le modèle ne devine plus à partir de données d'entraînement ; il lit vos documents et les résume. C'est ce qui rend la réponse actuelle, précise et vérifiable.

Les deux moitiés comptent à parts égales, et la plupart des échecs sont des échecs de récupération, pas des échecs de modèle. Si l'étape de récupération fait remonter les mauvais passages, même le meilleur modèle produit une réponse assurée, fausse et bien rédigée. Un assistant de connaissances ne vaut que ce qu'il récupère, raison pour laquelle les parties ingrates (comment les documents sont découpés, comment ils sont vectorisés, comment la récupération est notée) décident si la chose fonctionne.

La RAG face aux solutions de rechange

Récupération, réglage fin, ou simplement une invite plus longue

Choisissez la RAG quand les réponses doivent être ancrées dans un corpus qui est vaste, changeant, ou les deux, et quand citer la source compte. Choisissez le réglage fin quand vous devez changer la façon dont le modèle se comporte, son ton, son format ou une compétence pointue, et non les faits qu'il connaît ; le réglage fin enseigne un style et des schémas, pas un corpus de connaissances en mouvement. Choisissez une simple invite quand la connaissance est assez petite pour être collée dans le contexte, auquel cas la récupération est une surcharge dont vous n'avez pas besoin.

Ce ne sont pas des choix mutuellement exclusifs, et les systèmes les plus solides les combinent : un modèle réglé finement ou bien guidé pour le comportement, la RAG pour les faits. L'erreur que nous voyons le plus souvent, c'est de régler finement un modèle sur les documents d'une entreprise dans l'espoir qu'il les mémorisera. Ça ne fonctionne pas de façon fiable : le modèle mélange les faits, ne peut pas citer, et devient périmé dès qu'un document change. Si l'exigence est d'obtenir des réponses exactes à partir de documents actuels, c'est la RAG, chaque fois.

Se tromper sur ce choix coûte cher dans les deux directions. Nous avons vu des projets de réglage fin qui auraient dû être une construction RAG de deux semaines, et des pipelines RAG élaborés pour une base de connaissances qui tenait dans une seule invite. Nous nommons la raison du choix avant de construire, parce que l'architecture est difficile à défaire plus tard.

Fig. · Récupération, réglage fin, ou simplement une invite plus longue

Ce qui le rend digne de confiance

Contrôle d'accès, ancrage et un jeu d'évaluation

Trois choses séparent un assistant de connaissances que vous pouvez placer devant des employés ou des clients d'une simple démonstration. La première est le contrôle d'accès à la couche de récupération : l'assistant ne doit récupérer que dans les documents que l'utilisateur courant est autorisé à voir, appliqué au moment de l'exécution de la requête, et non filtré après coup. Un assistant qui peut faire remonter un document qu'un utilisateur n'aurait jamais dû voir est une fuite de données avec une interface conviviale.

La deuxième est l'ancrage et la citation : chaque réponse renvoie aux passages dont elle est issue, afin qu'un utilisateur puisse la vérifier et qu'un réviseur puisse l'auditer. Les assistants qui répondent sans citation entraînent les gens à leur faire aveuglément confiance, ce qui est exactement à rebours pour toute chose porteuse. La troisième est la mesure : un jeu d'évaluation noté qui évalue l'exactitude des réponses et leur ancrage à chaque changement, afin que les régressions de qualité soient prises en développement plutôt que par un client en production.

La connaissance change aussi, donc la récupération doit être maintenue : réindexer à mesure que les documents évoluent, et surveiller la qualité de la récupération pour repérer la lente dégradation qui érode la confiance trimestre après trimestre. La construction est la partie facile ; c'est la posture d'exploitation qui la garde exacte un an plus tard.

Fig. · Contrôle d'accès, ancrage et un jeu d'évaluation

Comment SDEN construit la RAG

Trois engagements sur chaque construction d'assistant de connaissances

Nous construisons le pipeline complet et le remettons, avec le contrôle d'accès et les évaluations qui rendent sûr de lui faire confiance, puis nous l'exploitons jusqu'à ce que votre équipe le puisse.

La récupération avant la génération

Nous investissons là où se trouvent réellement les échecs : le découpage, les plongements et la notation de la récupération, mesurés sur un véritable jeu de questions de vos utilisateurs. Une bonne couche de récupération fait paraître excellent un modèle ordinaire ; une mauvaise rend peu fiable le meilleur des modèles.

Le contrôle d'accès n'est pas optionnel

Les permissions sont appliquées au moment de la requête, de sorte que l'assistant ne peut jamais faire remonter un document que l'utilisateur n'est pas autorisé à voir. Cela fait partie de l'architecture dès le premier jour, et non d'un filtre ajouté plus tard.

Mesuré, puis maintenu

Chaque assistant est livré avec un jeu d'évaluation qui note l'exactitude et l'ancrage à chaque changement, plus une surveillance de la dérive de récupération en production, et le pipeline de données et la base de référence d'évaluation qui le rendent maintenable après la remise.

À quoi ressemble la réussite

Un assistant auquel les gens font réellement confiance

Un an plus tard, l'assistant est toujours exact, cite toujours ses sources, et n'a pas discrètement laissé fuir un document ni dérivé vers des absurdités assurées.

Le test honnête d'un assistant de connaissances n'est pas la démonstration de lancement ; c'est de savoir si les gens l'utilisent encore après l'avoir surpris à se tromper. La confiance se perd la première fois qu'un assistant invente une politique ou fait remonter quelque chose qu'il n'aurait pas dû, et elle est presque impossible à regagner. Voilà pourquoi l'ancrage, la citation et le contrôle d'accès ne sont pas du fignolage : ils sont le produit.

Les assistants qui restent dignes de confiance sont ceux qui ont été mesurés dès le départ et maintenus après le lancement. La qualité de la récupération est surveillée, le jeu d'évaluation grandit à mesure que de nouveaux modes d'échec sont découverts, et l'index suit le rythme des documents. Rien de tout cela n'est prestigieux, et c'est tout cela qui sépare un système dont la valeur se compose d'un système discrètement abandonné en deux trimestres.

Bien fait, un assistant de connaissances transforme le savoir dispersé et sous-utilisé d'une entreprise en quelque chose que chaque employé peut interroger en langage clair, avec des réponses qu'il peut vérifier. C'est un avantage durable, et il vous appartient : le pipeline, les évaluations et le code.

Fig. · Un assistant auquel les gens font réellement confiance

FAQ

L'IA pour les fondateurs
les questions qu'on nous pose le plus.

Des réponses directes aux questions qu'on nous pose le plus souvent. Si la vôtre n'y est pas, écrivez à l'équipe.

Contactez l'équipe

Le RAG en entreprise : bâtir des assistants de connaissance qui fonctionnent vraiment

Ancrer, pas mémoriser

Récupération, réglage fin, ou simplement une invite plus longue

Contrôle d'accès, ancrage et un jeu d'évaluation

Trois engagements sur chaque construction d'assistant de connaissances

La récupération avant la génération

Le contrôle d'accès n'est pas optionnel

Mesuré, puis maintenu

Un assistant auquel les gens font réellement confiance

L'IA pour les fondateurs
les questions qu'on nous pose le plus.

Prêt à construire et à posséder votre IA ?

À découvrir sur SDEN

Flux d'IA sur mesure ou outils clé en main : quand chacun l'emporte

Du projet pilote ChatGPT à l'IA en production : les étapes d'ingénierie que les fondateurs sautent

Expertise IA et apprentissage automatique

Build & Run

Ancrer, pas mémoriser

Récupération, réglage fin, ou simplement une invite plus longue

Contrôle d'accès, ancrage et un jeu d'évaluation

Trois engagements sur chaque construction d'assistant de connaissances

La récupération avant la génération

Le contrôle d'accès n'est pas optionnel

Mesuré, puis maintenu

Un assistant auquel les gens font réellement confiance

L'IA pour les fondateursles questions qu'on nous pose le plus.

Qu'est-ce que la RAG, en termes simples ?

Devrions-nous utiliser la RAG ou régler finement un modèle ?

Comment l'empêchez-vous de laisser fuir des documents que les gens ne devraient pas voir ?

Comment savez-vous que les réponses sont exactes ?

Combien de temps faut-il pour construire un système RAG ?

Prêt à construire et à posséder votre IA ?

À découvrir sur SDEN

Flux d'IA sur mesure ou outils clé en main : quand chacun l'emporte

Du projet pilote ChatGPT à l'IA en production : les étapes d'ingénierie que les fondateurs sautent

Expertise IA et apprentissage automatique

Build & Run

L'IA pour les fondateurs
les questions qu'on nous pose le plus.

Flux d'IA sur mesure ou outils clé en main : quand chacun l'emporte

Du projet pilote ChatGPT à l'IA en production : les étapes d'ingénierie que les fondateurs sautent