Controlar las imágenes

“Un prompt es gritar una orden a través de una sala ruidosa. El control es poner el plano en sus manos.”

Los límites de las palabras

El texto es una forma de poco ancho de banda para especificar una imagen. "Una persona de pie junto a un coche rojo" deja mil millones de detalles sin especificar (pose, ángulo, iluminación, posición exacta) y el modelo los rellena con lo que sugiera el ruido. Para explorar está bien. Para un resultado concreto, el prompt por sí solo es frustrante: estás describiendo una imagen a alguien que no puede ver tu intención.

Así que las técnicas que importan son las que le dan al modelo algo más que palabras: una imagen existente que modificar, una guía estructural que seguir, un estilo de referencia que igualar. Convierten la generación de "tirar los dados sobre mi descripción" en "ejecutar según mi especificación".

Editar lo que ya está ahí

Como la generación es una eliminación de ruido en la que puedes intervenir, puedes partir de una imagen existente en lugar de ruido puro. De ahí salen dos técnicas de cabecera:

Imagen a imagen: empezar la eliminación de ruido desde tu imagen más algo de ruido, de modo que la salida conserva su estructura general pero cambia según el prompt. "Haz que esta foto parezca una pintura."
Inpainting: regenerar solo una región enmascarada, dejando el resto intacto. "Quita a la persona de esta esquina" o "cambia solo el cielo". El modelo rellena el hueco de forma coherente con lo que lo rodea.
Outpainting: extender una imagen más allá de sus bordes, inventando una continuación plausible.

Estas son la base de los flujos de trabajo creativos y de producción reales, donde rara vez quieres una imagen entera desde cero. Quieres cambiar una cosa manteniendo todo lo demás fijo.

Imponer estructura

El mayor salto en control vino de condicionar la generación con una entrada estructural junto al prompt (un mapa de bordes, un mapa de profundidad, un esqueleto de pose humana, un boceto basto). El modelo debe producir una imagen que coincida a la vez con tus palabras y con esa estructura. Ahora puedes decir "un caballero en esta pose exacta" entregando un esqueleto de palotes, o "este edificio con esa fachada" mediante un contorno de bordes.

Esta familia de técnicas (ControlNet, introducida hacia 2023, es la más conocida) es lo que hace los modelos de imágenes utilizables para el trabajo profesional, donde necesitas la composición que pretendías, no una composición plausible que el modelo prefería. Es la diferencia entre un juguete y un instrumento.

Igualar estilo y sujeto

A menudo quieres consistencia: el mismo personaje en muchas imágenes, o un estilo artístico concreto a lo largo de todas. Una gama de técnicas aborda esto, desde la personalización ligera que enseña a un modelo un nuevo sujeto o estilo a partir de unos pocos ejemplos hasta el condicionamiento por imagen de referencia que arrastra un look a través de las generaciones. Los detalles cambian rápido con las herramientas, pero el objetivo es constante: la reproducibilidad, no la suerte puntual.

La habilidad está en el bucle, no en el prompt

En conjunto, la generación de imágenes controlada es iterativa: generar, inspeccionar, enmascarar y regenerar una región, ajustar la guía estructural, variar una semilla, refinar. Quienes obtienen resultados profesionales no escriben prompts mágicos. Ejecutan un bucle apretado con las herramientas de control, exactamente igual que un fotógrafo trabaja la toma en vez de esperar un encuadre perfecto al primer intento.

Una línea por cada uno

El texto es de poco ancho de banda; el prompt por sí solo deja la mayor parte de una imagen al azar. Controlar significa darle al modelo algo más que palabras.
Como la generación es una eliminación de ruido interrumpible, puedes editar: imagen a imagen, inpainting de una región enmascarada, outpainting más allá de los bordes.
El condicionamiento estructural (bordes, profundidad, pose, p. ej. ControlNet) fuerza la composición que pretendías, convirtiendo un juguete en un instrumento.
Los resultados profesionales vienen de un bucle iterativo apretado con las herramientas de control, no de un único prompt mágico. La personalización plantea cuestiones reales de consentimiento y derechos de autor.

Adónde ir ahora

Capítulo 4: Audio y música