¿Por qué se rompen los pilotos de IA en producción?

Tres razones, por orden de frecuencia. Primero, la distribución de las entradas en producción es más amplia que la del piloto, los usuarios hacen cosas que el piloto no probó, y el modelo las gestiona mal. Segundo, sorpresas de coste y de latencia golpean a una escala que no aparecía al volumen del piloto. Tercero, el respaldo sin IA nunca se construyó, de modo que cuando el modelo se rompe, el flujo no tiene ninguna degradación elegante. El trabajo de ingeniería piloto-a-producción es lo que gestiona los tres.

¿Cuánto debería durar el proceso piloto-a-producción?

De seis a diez semanas para una funcionalidad de IA acotada con una entrada, una salida y una métrica de éxito claras. Más rápido suele significar que se saltó el arnés de evaluación o el respaldo, lo que comprime el calendario ahora y cuesta más caro después. Más lento suele significar que el alcance del piloto original se amplía bajo la cobertura de la «puesta en producción», señálalo y reencuádralo explícitamente.

¿Necesitamos un arnés de evaluación completo para cada funcionalidad de IA?

Sí, a la escala de la criticidad del flujo. Una herramienta interna de bajo riesgo necesita un conjunto de evaluación pequeño (50 a 100 ejemplos) y una verificación manual de la calidad. Una funcionalidad orientada al cliente o que toca los ingresos necesita una evaluación más rica (300 a 1.000 ejemplos), métricas automatizadas, y una revisión humana de una muestra en cada cambio de modelo. El principio es el mismo, lo que cambia es el presupuesto que le dedicas a construirlo.

¿Cuál es el modo de fallo en producción más frecuente que deberíamos esperar?

La deriva de calidad en los meses cuatro a siete. El modelo rinde en el lanzamiento, el prompt o el índice de recuperación se aleja lentamente de las necesidades cambiantes del flujo, nadie vigila de cerca, y al noveno mes la funcionalidad se ha vuelto lo bastante poco fiable como para que el equipo deje de usarla. La contramedida es la evaluación mensual respecto a la línea base, mostrada en un panel que el equipo mira de verdad. Es poco glorioso y es la diferencia entre las funcionalidades de IA que viven y las que mueren.

¿Quién debería poseer la funcionalidad de IA después del lanzamiento?

Un ingeniero nombrado en el equipo del cliente, apoyado por el propietario de producto original. No el proveedor de IA, no la consultora que la construyó, no «el equipo». La IA sin propietario está en la misma clase de riesgo que el código de producción sin propietario, funciona hasta que deja de hacerlo, y cuando deja, nadie lo sabe. El documento de traspaso nombra al propietario explícitamente, y la rotación de guardia lo incluye desde el primer día.

Del piloto de ChatGPT a la IA en producción: los pasos de ingeniería que los fundadores se saltan

El punto de partida

Llevar una funcionalidad de IA del piloto a la producción es el trabajo que convierte una demo que impresionó a la dirección en un sistema que sobrevive a un año de usuarios reales, casos límite reales y presión de costes real. Ahí es donde fracasan en silencio la mayoría de los proyectos de IA, no porque el modelo sea malo, sino porque los siete pasos de ingeniería entre un prototipo funcional y una funcionalidad desplegada se saltan o se comprimen.

El piloto funcionaba. El fundador lo ejecutó en su portátil, le hizo cinco preguntas, obtuvo cinco buenas respuestas, y se lo mostró al consejo. La financiación llega. Tres meses después, el equipo tiene un canal de Slack lleno de quejas, una factura de proveedor tres veces superior a la proyección, y una funcionalidad que el equipo de soporte ha empezado a esquivar. La brecha entre el piloto y el despliegue en producción es donde el proyecto descarriló, y la brecha es predecible.

Este texto recorre los siete pasos, en orden, con los modos de fallo de cada uno. Está escrito para los fundadores y los responsables de ingeniería que tienen un prototipo de IA funcional y quieren verlo aterrizar en producción como una funcionalidad que su equipo pueda defender. El encuadre es tajante; los pasos no son opcionales.

Los siete pasos

De la demo al despliegue, en el orden en que deben ocurrir

Cada paso existe porque saltárselo es lo que hace fracasar el despliegue.

Paso uno: definir los modos de fallo en producción. Una demo solo tiene que funcionar; una funcionalidad en producción debe fallar correctamente. ¿Qué hace la funcionalidad cuando el modelo es lento, cuando el modelo se equivoca, cuando la entrada está malformada, cuando el usuario se comporta de forma adversaria? La mayoría de los pilotos no tienen respuesta; las funcionalidades en producción necesitan una para cada caso. Paso dos: construir el arnés de evaluación. Un conjunto de datos congelado de 100 a 500 entradas representativas, las métricas que importan, el umbral por debajo del cual la funcionalidad se desactiva. Hasta que la evaluación no existe, el modelo puede cambiar pero no puedes decir si el cambio fue una mejora.

Paso tres: presupuestos de coste y de latencia. ¿Cuál es el tope de coste por petición, el presupuesto de latencia p95, el tope de gasto mensual? Si no se especifican, la funcionalidad superará en silencio los tres ya desde el segundo mes. Paso cuatro: guardarraíles en la frontera. Anonimización de la información personal en la entrada, detección de inyección de prompt, filtrado de las salidas para las categorías de política aplicables, taxonomía de rechazo para los casos que el modelo no debería tratar. El piloto no hacía nada de eso y se salía con la suya porque el único usuario era el fundador. Paso cinco: el respaldo sin IA. Todo flujo asistido por la IA necesita un camino sin IA al que la empresa pueda volver en unos minutos cuando el modelo se rompe, deriva o se vuelve carísimo. El respaldo no es un cuadro de diálogo de experiencia de usuario; es un proceso manual funcional.

Paso seis: observabilidad. Registro por petición de las entradas, las salidas, la latencia, el coste y la puntuación de evaluación cuando aplica. Sin eso, el equipo depura a ciegas. Paso siete: el traspaso. Documentación, runbooks, conjunto de evaluación, panel, rotación de guardia. La funcionalidad no está en producción mientras el equipo que la operará no pueda hacerlo sin el equipo que la construyó. La mayoría de los sobrecostes que vemos provienen de saltarse el paso siete, el equipo de construcción se convierte en el equipo de operación permanente, y la economía unitaria se ve alterada por ello.

Fig. · De la demo al despliegue, en el orden en que deben ocurrir

Los pasos que los fundadores se saltan

Evaluación, respaldo y observabilidad: en todos los casos

A través de los proyectos que hemos salvado, tres de los siete pasos se saltan casi siempre: el arnés de evaluación, el respaldo sin IA y la capa de observabilidad. La evaluación se salta porque parece superflua, el modelo funciona sobre las entradas que el equipo ha probado, y un conjunto de tests congelado «queda para más adelante». Luego el equipo necesita cambiar el prompt, o cambiar el modelo, o añadir una fuente de contexto, y no tiene ninguna manera de saber si el cambio dejó la funcionalidad mejor o peor. La mayoría de los desastres de ingeniería de prompts en producción son desastres de disciplina de evaluación y no desastres de prompts.

El respaldo sin IA se salta porque parece pesimista, el equipo acaba de construir la funcionalidad de IA, en lo último que quiere pensar es en el mundo donde no funciona. Luego seis meses después, el proveedor del modelo tiene una caída parcial, o el coste se triplicó, o el modelo fue retirado, o el entorno regulatorio cambia, y la empresa no tiene ningún respaldo. El coste de la caída es lo que el respaldo habría costado construir, tres veces en lugar de una.

La observabilidad se salta porque el piloto no la necesitaba. El único usuario era el fundador; el fundador recordaba lo que había tecleado. En producción, el equipo tendrá que depurar una queja llegada hace tres días, sobre un flujo que tocó ocho entradas, ninguna de las cuales se registró. El equipo pasará una semana intentando reproducir el bug de memoria y fracasará. Añadir la observabilidad de forma retroactiva es más caro que integrarla desde el principio.

Fig. · Evaluación, respaldo y observabilidad: en todos los casos

Cómo es realmente el listo-para-producción

La lista de verificación de entrega, línea por línea

Una funcionalidad de IA lista para producción posee, como mínimo, lo siguiente: un conjunto de datos de evaluación congelado integrado en el repositorio; el arnés de evaluación ejecutándose en cada cambio de prompt o de modelo; paneles de latencia, coste y calidad revisados cada semana; la anonimización de la información personal y la detección de inyección de prompt en la frontera; un respaldo sin IA documentado con un procedimiento de conmutación probado; un registro por petición con una retención dimensionada a la ventana de depuración más larga esperada; un runbook para el ingeniero de guardia; y un propietario documentado responsable de las métricas de la funcionalidad al duodécimo mes.

Cada elemento existe porque hemos visto el fallo que ocurre cuando falta. Cada elemento cuesta también menos de construir que el coste del fallo. La economía no es sutil, el equipo que entrega esas siete cosas pasa unas semanas adicionales en el lanzamiento y ahorra unos trimestres adicionales de depuración y reconstrucción.

Nos negamos a desplegar IA sin la lista de verificación. No porque queramos parecer rigurosos, sino porque la alternativa es un despliegue que el cliente no puede mantener una vez nos hemos ido, lo que no es un entregable. El traspaso comprende cada elemento de la lista de verificación, bajo gestión de versiones, con la documentación escrita para el ingeniero que la heredará.

Fig. · La lista de verificación de entrega, línea por línea

Cómo lleva SDEN los pilotos a producción

Tres compromisos en cada despliegue

La brecha piloto-producción es donde fracasan los proyectos de IA. Los compromisos de abajo son la forma en que la cerramos.

Evaluación antes del despliegue

Un conjunto de datos de evaluación congelado, las métricas que importan, y el umbral por debajo del cual la funcionalidad se desactiva. Integrado en el repositorio del cliente. La evaluación es el contrato entre el modelo y el flujo.

Un respaldo que funciona de verdad

Todo flujo asistido por la IA tiene un respaldo sin IA al que la empresa puede volver en unos minutos. Lo probamos cada trimestre. Existe para el día en que el modelo se rompe, y ese día siempre llega.

El traspaso es el entregable

Documentación, runbooks, paneles, rotación de guardia. La funcionalidad no está en producción mientras tu equipo no pueda operarla sin el nuestro. Una funcionalidad de IA que no puedes mantener sin nosotros es una dependencia, no un entregable.

Cómo es el éxito

Un año después del despliegue

La verdadera prueba de un despliegue de IA en producción es cómo se ve doce meses después, y no el día del lanzamiento.

Los despliegues que envejecen bien comparten tres propiedades. El conjunto de evaluación se ha actualizado al menos dos veces a medida que el flujo ha evolucionado, y no se ha abandonado. El respaldo se ha probado de verdad al menos una vez, aunque el modelo nunca se haya roto, confirmando que el camino sigue funcionando. El equipo que opera la funcionalidad no es el equipo que la construyó, el traspaso transfirió de verdad la propiedad.

Los despliegues que fracasan comparten las tres propiedades inversas. El conjunto de evaluación está caducado de seis meses, porque nadie lo posee. El respaldo existe únicamente en la documentación, sin probar. Y el equipo de ingeniería original sigue siendo el equipo de soporte de facto, porque la documentación nunca permitió que otra persona tomara el relevo.

Cuando SDEN termina un proyecto de IA, el traspaso es aquello por lo que se juzga el entregable. La funcionalidad funciona el primer día; eso es el mínimo. La funcionalidad sigue funcionando el día trescientos sesenta y cinco, poseída por tu equipo, eso es la culminación del proyecto.

FAQ

Ingeniería de IA
las preguntas que más nos hacen.

Respuestas directas a las preguntas que más nos hacen. Si la tuya no está, escribe al equipo.

Contacta con el equipo

Del piloto de ChatGPT a la IA en producción: los pasos de ingeniería que los fundadores se saltan

De la demo al despliegue, en el orden en que deben ocurrir

Evaluación, respaldo y observabilidad: en todos los casos

La lista de verificación de entrega, línea por línea

Tres compromisos en cada despliegue

Evaluación antes del despliegue

Un respaldo que funciona de verdad

El traspaso es el entregable

Un año después del despliegue

Ingeniería de IA
las preguntas que más nos hacen.

Fuentes

¿Listo para construir y poseer tu IA?

Descubre más en SDEN

Flujos de IA a medida o herramientas listas para usar: cuándo gana cada uno

El ROI de la IA para fundadores: medir lo que la IA vale de verdad

Experiencia en IA y machine learning

Build & Run

De la demo al despliegue, en el orden en que deben ocurrir

Evaluación, respaldo y observabilidad: en todos los casos

La lista de verificación de entrega, línea por línea

Tres compromisos en cada despliegue

Evaluación antes del despliegue

Un respaldo que funciona de verdad

El traspaso es el entregable

Un año después del despliegue

Ingeniería de IAlas preguntas que más nos hacen.

¿Por qué se rompen los pilotos de IA en producción?

¿Cuánto debería durar el proceso piloto-a-producción?

¿Necesitamos un arnés de evaluación completo para cada funcionalidad de IA?

¿Cuál es el modo de fallo en producción más frecuente que deberíamos esperar?

¿Quién debería poseer la funcionalidad de IA después del lanzamiento?

Fuentes

¿Listo para construir y poseer tu IA?

Descubre más en SDEN

Flujos de IA a medida o herramientas listas para usar: cuándo gana cada uno

El ROI de la IA para fundadores: medir lo que la IA vale de verdad

Experiencia en IA y machine learning

Build & Run

Ingeniería de IA
las preguntas que más nos hacen.