Diffusion: from noise to image, step by step

“Un escultor no añade mármol. Parte de un bloque en bruto y retira todo lo que no es la estatua.”

La generación como eliminación de ruido

Un modelo de diffusion se entrena con una idea sencilla, casi tonta. Coge una imagen real, añádele un poco de ruido aleatorio y enseña a un modelo a quitarlo. Haz esto en todos los niveles de ruido, desde apenas moteado hasta ruido puro. El modelo se vuelve experto en una sola cosa: dada una imagen con ruido, predecir una versión un poco más limpia.

Para generar, partes de ruido puro (ruido aleatorio) y aplicas ese paso de eliminación de ruido una y otra vez. Cada pasada quita un poco de ruido, y como el modelo aprendió cómo son las imágenes reales, el ruido se resuelve en una imagen coherente. La generación es solo eliminación de ruido, ejecutada desde la nada.

Parte de ruido aleatorio; cada paso quita un poco, guiado por el prompt, hasta que emerge una imagen nítida. La creación como sustracción repetida.

Cómo lo dirige el prompt

Una eliminación de ruido pura produciría alguna imagen plausible, pero no tu imagen. El prompt entra como guía: en cada paso de eliminación de ruido, el modelo se condiciona con tu texto, empujando el resultado hacia una imagen que coincida con la descripción. El texto se convierte en una representación (usando ese espacio compartido texto-imagen que veremos en el capítulo 6) que el eliminador de ruido puede seguir.

Por eso el mismo prompt da imágenes distintas cada vez (partes de un ruido aleatorio distinto) y por eso cambios diminutos en el prompt pueden mover mucho el resultado: estás dirigiendo un proceso, no recuperando una imagen. El prompt es un campo de fuerza sobre la eliminación de ruido, no una clave de búsqueda.

Trabajar en pequeño: la diffusion latente

Eliminar ruido directamente de una imagen a resolución completa es enormemente caro (millones de píxeles, cientos de pasos). El avance que puso la generación de imágenes al alcance del hardware corriente fue trabajar en un espacio comprimido. Un codificador reduce la imagen a una pequeña representación "latente", todo el costoso eliminado de ruido ocurre ahí, y un descodificador expande el resultado de vuelta a resolución completa.

Comprimir a un latente pequeño, hacer ahí la generación costosa y luego descodificar de vuelta a resolución completa. El mismo resultado por una fracción del cómputo.

Este enfoque de diffusion latente, popularizado hacia 2022, es la razón por la que los generadores de imágenes pasaron de curiosidades de laboratorio a herramientas que corren en una GPU de gaming. La idea (hacer el trabajo duro en un espacio comprimido) reaparece por toda la IA eficiente.

Qué explica esto sobre la IA de imágenes

La imagen de la eliminación de ruido explica las rarezas que has visto. Por qué las imágenes tardan en generarse (muchos pasos). Por qué detalles como las manos y el texto salían históricamente deformados (el detalle fino y estructurado es difícil de recuperar del ruido). Por qué puedes guiar, hacer inpainting y variar una imagen (puedes intervenir en la eliminación de ruido). Y por qué las salidas no son deterministas (distinto ruido de partida). La rareza no es azar: es el mecanismo asomando.

Una línea por cada uno

Los modelos de diffusion generan partiendo de ruido puro y eliminándolo de forma repetida hasta que emerge una imagen.
Se entrenan añadiendo ruido a imágenes reales y aprendiendo a invertirlo. La generación ejecuta esa inversión desde la nada.
El prompt dirige cada paso de eliminación de ruido; el distinto ruido de partida es por lo que el mismo prompt da imágenes distintas.
La diffusion latente hace el trabajo costoso en un espacio comprimido, que es lo que puso la generación de imágenes al alcance del hardware corriente.

Adónde ir ahora

Capítulo 3: Controlar las imágenes