One idea, many modalities

“Una vez que sabes aprender la forma de una cosa, puedes aprender la forma de cualquier cosa: palabras, imágenes, sonido.”

Una sola idea con muchos disfraces

Bajo cada modelo generativo hay un único gesto: aprender la distribución de un tipo de datos y luego muestrear nuevos ejemplos de ella. Aprender cómo son las frases en inglés y muestrear una nueva: eso es un modelo de lenguaje. Aprender cómo son las fotografías y muestrear una nueva: eso es un generador de imágenes. Los datos cambian; la idea de fondo, no.

La misma idea de base (aprender una distribución y luego muestrear de ella) alimenta la generación de texto, imagen, audio, vídeo, 3D y código.

Por eso el progreso en una modalidad no para de desbordarse hacia las demás. La arquitectura transformer que impulsó los modelos de lenguaje resultó funcionar también para imágenes y audio. La lección aprendida con el texto (la escala más la arquitectura adecuada le ganan al ingenio artesanal) se repitió en todas las demás modalidades, unos años después.

Generación frente a comprensión

Dos direcciones importan y es fácil confundirlas. La comprensión va de una entrada rica a una respuesta compacta: una imagen a un pie de foto, audio a una transcripción, un vídeo a un resumen. La generación va al revés: un prompt a una imagen, texto a voz, una descripción a un vídeo. A menudo los mismos modelos subyacentes hacen ambas cosas, pero la ingeniería, el coste y los riesgos difieren mucho entre una y otra.

Por qué todo ocurrió a la vez

La IA generativa en todas las modalidades pareció estallar de golpe a principios de la década de 2020, pero el estallido fue el encuentro de tres tendencias lentas: datos suficientes (las imágenes, el audio y el vídeo de internet), cómputo suficiente (las GPU construidas exactamente para este tipo de matemáticas) y un par de avances arquitectónicos, sobre todo el transformer y, para imágenes, los modelos de diffusion. Ninguno era magia nueva; juntos cruzaron un umbral de utilidad.

Saber esto te mantiene con los pies en la tierra. Las capacidades son reales y mejoran rápido. Pero cada modalidad está en un punto distinto de la curva (texto e imagen están maduros, vídeo y 3D son más tempranos y más bastos), y la distancia entre una demo deslumbrante y un producto fiable es, como siempre, toda la historia.

Qué cubre este curso

Abriremos la caja de la generación de imágenes (cómo funciona de verdad la diffusion), cómo se dirige, luego el audio y la música, luego el vídeo y el 3D, luego los modelos multimodales que fusionan visión y lenguaje, y terminaremos con los riesgos que traen las máquinas capaces de fabricar medios convincentes. El curso de fundamentos es un buen contexto pero no obligatorio; este se sostiene por sí solo.

Una línea por cada uno

Todo modelo generativo hace una sola cosa: aprender la distribución de unos datos y luego muestrear nuevos ejemplos de ella.
El progreso se desborda entre modalidades porque las mismas arquitecturas (sobre todo el transformer) siguen funcionando con nuevos tipos de datos.
La comprensión (entrada → respuesta compacta) y la generación (prompt → salida rica) difieren en coste, fiabilidad y riesgo.
Cada modalidad está en un punto distinto de la curva (texto e imagen maduros, vídeo y 3D más tempranos), y las demos siguen adelantándose a los productos fiables.

Adónde ir ahora

Capítulo 2: Cómo funciona la generación de imágenes