A thin model inside a thick system

“Una herramienta eléctrica necesita un banco de trabajo. El modelo es la hoja; el sistema es todo lo que mantiene tus dedos intactos.”

Modelo delgado, sistema grueso

Una demo es un modelo con un prompt. Un producto es un modelo envuelto en recuperación, herramientas, salvaguardas, rutas de respaldo, registro y evaluaciones. El modelo quizá represente el 5 % del código y el 90 % de la magia, pero el 95 % restante del código es lo que hace esa magia lo bastante fiable como para cobrar por ella.

El cambio de mentalidad más útil para construir con IA es este: deja de intentar mejorar el modelo y empieza a mejorar el sistema a su alrededor. Por lo general no puedes reentrenar el modelo. Siempre puedes mejorar lo que le das de comer, lo que le dejas tocar y cómo verificas su trabajo.

Los cuatro trabajos del sistema

Todo lo que construyes alrededor del modelo cumple uno de cuatro trabajos: hacer llegar la información correcta (recuperación), darle al modelo capacidades reales (herramientas), impedir que las entradas y salidas dañinas causen perjuicio (salvaguardas) y saber si algo de esto funciona (evaluaciones). El resto de este curso dedica un capítulo a cada trabajo, además de cómo desplegar y operar el conjunto.

Las mismas cuatro palancas del curso de fundamentos, vistas ahora desde el lado del constructor: cada una es una parte del sistema que escribes, no del modelo que invocas.

Núcleo probabilístico, envoltura determinista

El modelo es probabilístico: la misma entrada puede producir salidas distintas, y no tiene noción de lo «correcto». Tu sistema debe ser lo más determinista posible en todo lo demás. Analiza la salida del modelo según un esquema estricto. Valídala. Si falla, reintenta o recurre a un respaldo: no pases salida del modelo sin validar aguas abajo confiando en que todo irá bien.

El patrón que llega a producción: trata cada llamada al modelo como una llamada de red a un tercero poco fiable. Puede ser lenta, errónea, malformada o estar caída. Envuélvela en consecuencia (tiempos de espera, reintentos, validación de esquema, una ruta de respaldo) exactamente como harías con cualquier dependencia inestable.

Empieza por lo más barato que podría funcionar

Hay un orden natural de escalado, de lo más barato a lo más caro. Prueba primero un mejor prompt. Luego añade ejemplos. Luego añade recuperación. Luego añade herramientas. Solo después de que todo eso falle deberías plantearte el fine-tuning: es la palanca más cara y la que la mayoría de los equipos accionan demasiado pronto.

Prompt: minutos, gratis. Prueba siempre esto primero.
Ejemplos few-shot: minutos, casi gratis.
Recuperación (RAG): días, coste moderado. La respuesta correcta a «no conoce nuestros datos».
Herramientas: días, coste moderado. La respuesta correcta a «no puede hacer nuestras tareas».
Fine-tuning: semanas, caro. El último recurso, no el primer movimiento.

Una línea por cada uno

El modelo es un componente, no el producto. El sistema a su alrededor es de donde viene la fiabilidad.
Mantén pequeña la parte probabilística y grande la envoltura determinista: valida cada salida contra un esquema.
Trata las llamadas al modelo como llamadas de red inestables: tiempos de espera, reintentos, respaldos.
Escala de lo más barato a lo más caro: prompt → ejemplos → recuperación → herramientas → fine-tuning.

Adónde ir ahora

Capítulo 2: Los prompts como software