Video e 3D

“Un flipbook funziona solo se ogni pagina si accorda con la precedente. Quell'accordo è la parte difficile.”

Perché il video è tanto più difficile delle immagini

Un video non è solo un insieme di immagini: è un insieme di immagini che devono accordarsi. Lo stesso oggetto deve mantenere la stessa forma, colore e identità in ogni frame; il movimento deve essere fisicamente plausibile; l'illuminazione deve restare coerente. Questa coerenza temporale è la sfida centrale, ed è il motivo per cui un modello può azzeccare un singolo frame fotorealistico isolato ma produrre un video in cui i volti si trasformano, gli oggetti tremolano e la fisica deriva.

È anche molto più costoso. Pochi secondi di video corrispondono a centinaia di frame, ognuno costoso quanto un'immagine, più il lavoro di mantenerli coerenti. Il calcolo e il problema della coerenza si sommano, il che spiega perché la generazione video accusa qualche anno di ritardo sulla generazione di immagini in maturità.

A che punto è davvero la generazione video

La traiettoria è rapida e reale: il testo verso video è passato da pochi secondi tremolanti a clip di coerenza e durata impressionanti in poco tempo. Lo stato onesto, però, è che è più forte per le clip corte e autonome e più debole proprio dove il video professionale ne ha bisogno (controllo preciso, lunga durata, personaggi coerenti tra le scene, e fisica affidabile).

Il 3D e i mondi oltre le immagini piatte

Generare 3D (modelli, scene, ambienti) è ancora più acerbo e genuinamente utile in nicchie specifiche (videogiochi, visualizzazione di prodotti, produzione virtuale). Le sfide ricalcano quelle del video: coerenza, ma ora attraverso i punti di vista invece che il tempo, e una scarsità di dati di addestramento, perché esistono molti meno modelli 3D che immagini 2D nel mondo.

Gli approcci vanno dalla ricostruzione 3D a partire da più foto (tecniche come i campi di radianza neurali e, più di recente, il gaussian splatting, che costruiscono una scena 3D navigabile a partire da immagini) alla generazione diretta di asset 3D a partire da testo o immagini. È un'area specializzata che evolve rapidamente, promettente, ma non ancora uno strumento universale con un solo clic.

Cosa aspettarsi, e quando

Per chi costruisce o decide: tratta il video e il 3D come capacità ad alto potenziale e in fase iniziale. Ci sono usi reali oggi per clip corte, b-roll, ideazione, previsualizzazione e nicchie 3D specifiche. Ma tutto ciò che richiede un output lungo, preciso, coerente e controllabile resta approssimativo, e lo spettacolo di una demo non andrebbe letto come affidabilità di produzione. È l'angolo dell'IA generativa in cui il giudizio "costruire-o-comprare-o-aspettare" atterra più spesso su "aspettare e osservare."

Una riga per ciascuno

Il video è più difficile delle immagini perché i frame devono accordarsi: la coerenza temporale di identità, movimento e fisica è la sfida centrale.
È anche molto più costoso (centinaia di frame più la coerenza), il che spiega che la generazione video accusa ritardo sulle immagini.
Stato: solido per le clip corte, debole per un output lungo, controllabile e coerente di qualità professionale. Giudica le parti noiose, non lo spettacolo.
Il 3D è ancora più acerbo e di nicchia; tratta video e 3D come capacità ad alto potenziale in fase iniziale, spesso un caso da "aspettare e osservare."

Dove andare ora

Capitolo 6: Modelli multimodali