El punto de partida
La generación aumentada por recuperación (RAG) es el patrón que hay detrás de la mayoría de los asistentes de IA útiles sobre contenido privado: en lugar de apoyarse en lo que un modelo aprendió durante su entrenamiento, el sistema recupera los pasajes relevantes de tus propios documentos y se los entrega al modelo como base, de modo que la respuesta se apoya en tus datos y puede citar de dónde proviene.
Es la herramienta adecuada para una tarea concreta: responder preguntas sobre un cuerpo de conocimiento que cambia y con el que el modelo nunca fue entrenado, tus políticas, tus tickets, tus contratos, tu documentación de producto. También se aplica mal con frecuencia, atornillado a problemas que un simple prompt resolvería, o se recurre a él cuando la verdadera necesidad era cambiar el comportamiento del modelo y no sus hechos.
Este texto es la versión práctica: qué es RAG, cuándo gana a las alternativas, qué marca la diferencia entre un asistente de conocimiento en el que la gente confía y uno que abandona en silencio, y cómo los construimos y operamos para que sigan siendo precisos después del lanzamiento.
Apoyarse, no memorizar
Un modelo de lenguaje sabe mucho en general y nada sobre tu negocio en particular. RAG cierra esa brecha en el momento de la consulta.
Cuando un usuario hace una pregunta, un sistema RAG recupera primero los fragmentos más relevantes de tu contenido indexado, y luego se los pasa al modelo junto con la pregunta, con la instrucción de responder a partir del material proporcionado y citarlo. El modelo ya no adivina a partir de sus datos de entrenamiento; está leyendo tus documentos y resumiéndolos. Eso es lo que hace que la respuesta sea actual, específica y verificable.
Las dos mitades importan por igual, y la mayoría de los fallos son fallos de recuperación, no fallos del modelo. Si el paso de recuperación saca a la superficie los pasajes equivocados, hasta el mejor modelo produce una respuesta confiada, errónea y bien escrita. Un asistente de conocimiento es tan bueno como lo que recupera, y por eso las partes poco vistosas (cómo se trocean los documentos, cómo se incrustan, cómo se puntúa la recuperación) deciden si la cosa funciona.

Recuperación, fine-tuning, o simplemente un prompt más largo
Recurre a RAG cuando las respuestas deban apoyarse en un corpus grande, cambiante, o ambas cosas, y cuando citar la fuente importe. Recurre al fine-tuning cuando necesites cambiar cómo se comporta el modelo, su tono, su formato o una habilidad concreta, no qué hechos conoce; el fine-tuning enseña estilo y patrones, no un cuerpo de conocimiento en movimiento. Recurre a un simple prompt cuando el conocimiento sea lo bastante pequeño para pegarlo en el contexto, en cuyo caso la recuperación es una sobrecarga que no necesitas.
No son mutuamente excluyentes, y los sistemas más fuertes los combinan: un modelo con fine-tuning o bien instruido para el comportamiento, y RAG para los hechos. El error que más vemos es hacer fine-tuning de un modelo sobre los documentos de una empresa con la esperanza de que se los memorice. No funciona de forma fiable: el modelo mezcla los hechos, no puede citar, y se queda obsoleto en cuanto cambia un documento. Si el requisito son respuestas precisas a partir de documentos actuales, eso es RAG, siempre.
Equivocarse en esta elección sale caro en ambas direcciones. Hemos visto proyectos de fine-tuning que deberían haber sido una construcción RAG de dos semanas, y elaborados pipelines RAG para una base de conocimiento que cabía en un solo prompt. Nombramos la razón de la elección antes de construir, porque la arquitectura es difícil de deshacer más tarde.

Control de acceso, fundamento y un conjunto de evaluación
Tres cosas separan un asistente de conocimiento que puedes poner delante de tu personal o de tus clientes de una simple demo. La primera es el control de acceso en la capa de recuperación: el asistente solo debe recuperar de documentos que el usuario actual tiene permiso para ver, aplicado en el momento en que se ejecuta la consulta, no filtrado a posteriori. Un asistente que puede sacar a la superficie un documento que un usuario jamás debería haber visto es una filtración de datos con una interfaz amable.
La segunda es el fundamento y la cita: cada respuesta apunta de vuelta a los pasajes de los que proviene, de modo que un usuario puede verificarla y un revisor puede auditarla. Los asistentes que responden sin citas entrenan a la gente para confiar en ellos a ciegas, que es justo lo contrario de lo que conviene para cualquier cosa que sostenga decisiones. La tercera es la medición: un conjunto de evaluación calificado que puntúa la precisión y el fundamento de las respuestas en cada cambio, de modo que las regresiones de calidad se detectan en desarrollo y no en producción por un cliente.
El conocimiento también cambia, así que la recuperación tiene que mantenerse: reindexar a medida que los documentos se actualizan, y monitorizar la calidad de la recuperación frente a la degradación lenta que erosiona la confianza trimestre a trimestre. La construcción es la parte fácil; la postura de operación es lo que lo mantiene preciso un año después.

Tres compromisos en cada construcción de asistente de conocimiento
Construimos el pipeline completo y lo entregamos, con el control de acceso y las evaluaciones que hacen seguro confiar en él, y luego lo operamos hasta que tu equipo pueda hacerlo.
Recuperación antes que generación
Invertimos donde están de verdad los fallos: el troceado, las incrustaciones y la puntuación de la recuperación, medidos sobre un conjunto real de preguntas de tus usuarios. Una buena capa de recuperación hace que un modelo corriente parezca excelente; una mala hace poco fiable hasta al mejor modelo.
El control de acceso no es opcional
Los permisos se aplican en el momento de la consulta, de modo que el asistente nunca puede sacar a la superficie un documento que el usuario no tiene permiso para ver. Esto forma parte de la arquitectura desde el primer día, no es un filtro añadido después.
Medido, y luego mantenido
Cada asistente se entrega con un conjunto de evaluación que puntúa la precisión y el fundamento en cada cambio, además de monitorización de la deriva de recuperación en producción, y con el pipeline de datos y la línea base de evaluación que lo hacen mantenible tras la entrega.
Un asistente en el que la gente confía de verdad
Un año después, el asistente sigue siendo preciso, sigue citando sus fuentes, y no ha filtrado en silencio un documento ni ha derivado hacia disparates confiados.
La prueba honesta de un asistente de conocimiento no es la demo del lanzamiento; es si la gente sigue usándolo después de haberlo pillado equivocándose. La confianza se pierde la primera vez que un asistente se inventa una política o saca a la superficie algo que no debería, y es casi imposible recuperarla. Por eso el fundamento, la cita y el control de acceso no son un acabado: son el producto.
Los asistentes que conservan la confianza son los que se midieron desde el principio y se mantuvieron tras el lanzamiento. Se vigila la calidad de la recuperación, el conjunto de evaluación crece a medida que se encuentran nuevos modos de fallo, y el índice sigue el ritmo de los documentos. Nada de eso es vistoso, y todo eso es lo que separa un sistema que acumula valor de uno que se abandona en silencio en dos trimestres.
Bien hecho, un asistente de conocimiento convierte el conocimiento disperso y subaprovechado de una empresa en algo que cada empleado puede consultar en lenguaje llano, con respuestas que puede comprobar. Es una ventaja duradera, y te pertenece: el pipeline, las evaluaciones y el código.

IA para fundadores
las preguntas que más nos hacen.
Respuestas directas a las preguntas que más nos hacen. Si la tuya no está, escribe al equipo.