Vai al contenuto
Capitolo 03 · 10 min

Controllare le immagini

Scrivere un prompt e sperare è dove tutti iniziano e dove i dilettanti restano. La vera potenza dei modelli di immagini sta nel controllarli: correggere una parte di un'immagine, imporre una struttura, armonizzare uno stile. Questo capitolo spiega come la generazione passa da slot machine a vero strumento.

Un prompt è gridare un ordine in una stanza rumorosa. Il controllo è mettere il progetto nelle loro mani.

I limiti delle parole

Il testo è un mezzo a bassa larghezza di banda per specificare un'immagine. "Una persona in piedi accanto a un'auto rossa" lascia un miliardo di dettagli non specificati (posa, angolo, illuminazione, posizionamento esatto), e il modello li riempie con ciò che il rumore suggerisce. Per l'esplorazione va bene. Per un risultato preciso, il solo prompting è frustrante: stai descrivendo un'immagine a qualcuno che non può vedere la tua intenzione.

Le tecniche che contano sono quindi quelle che danno al modello più delle parole: un'immagine esistente da modificare, una guida strutturale da seguire, uno stile di riferimento da armonizzare. Trasformano la generazione da "tirare i dadi sulla mia descrizione" a "eseguire secondo le mie specifiche".

Modificare ciò che c'è già

Poiché la generazione è un denoising interrompibile, puoi intervenire e partire da un'immagine esistente invece che da rumore puro. Ne derivano due tecniche di base:

  • Da immagine a immagine: iniziare il denoising dalla tua immagine più del rumore, così l'output mantiene la sua struttura globale ma cambia secondo il prompt. "Trasforma questa foto in un dipinto."
  • Inpainting: rigenerare solo una regione mascherata, lasciando intatto il resto. "Togli la persona da questo angolo" oppure "cambia solo il cielo." Il modello riempie il vuoto in coerenza con ciò che lo circonda.
  • Outpainting: estendere un'immagine oltre i suoi bordi, inventando una continuazione plausibile.

Sono la base dei flussi di lavoro creativi e di produzione reali, dove raramente vuoi un'immagine intera da zero: vuoi cambiare una cosa mantenendo fisso tutto il resto.

Imporre una struttura

Il più grande salto in fatto di controllo è venuto dal condizionare la generazione su un input strutturale oltre al prompt (una mappa di contorni, una mappa di profondità, uno scheletro di posa umana, uno schizzo grezzo). Il modello deve produrre un'immagine che corrisponda sia alle tue parole sia a quella struttura. Ora puoi dire "un cavaliere in questa posa esatta" porgendo uno scheletro a bastoncini, oppure "questo edificio con quella facciata" tramite un contorno di bordi.

Questa famiglia di tecniche (ControlNet, introdotto intorno al 2023, è la più nota) è ciò che rende i modelli di immagini utilizzabili per il lavoro professionale, dove hai bisogno della composizione voluta, e non di una composizione plausibile che il modello preferiva. È la differenza tra un giocattolo e uno strumento.

Armonizzare stile e soggetto

Spesso vuoi coerenza: lo stesso personaggio in più immagini, o uno stile artistico specifico ovunque. Una gamma di tecniche risponde a questa esigenza: dalla personalizzazione leggera che insegna a un modello un nuovo soggetto o stile a partire da pochi esempi, fino al condizionamento tramite immagine di riferimento che trasporta un look attraverso le generazioni. I dettagli cambiano rapidamente a seconda degli strumenti, ma l'obiettivo è costante: la riproducibilità, non la fortuna occasionale.

L'abilità sta nel ciclo, non nel prompt

Messa insieme, la generazione di immagini controllata è iterativa: generare, ispezionare, mascherare e rigenerare una regione, regolare la guida strutturale, variare un seed, rifinire. Le persone che ottengono risultati professionali non scrivono prompt magici: fanno girare un ciclo serrato con gli strumenti di controllo, esattamente come un fotografo lavora lo scatto invece di sperare in un'inquadratura perfetta al primo colpo.

Una riga per ciascuno

  • Il testo è a bassa larghezza di banda; il solo prompting lascia gran parte di un'immagine al caso. Controllare significa dare al modello più delle parole.
  • Poiché la generazione è un denoising interrompibile, puoi modificare: da immagine a immagine, inpainting di una regione mascherata, outpainting oltre i bordi.
  • Il condizionamento strutturale (contorni, profondità, posa, p. es. ControlNet) impone la composizione voluta, trasformando un giocattolo in uno strumento.
  • I risultati professionali vengono da un ciclo iterativo serrato con gli strumenti di controllo, non da un singolo prompt magico; e la personalizzazione solleva veri problemi di consenso e diritto d'autore.