Vai al contenuto
Capitolo 06 · 11 min

Modelli multimodali

Il cambiamento più rilevante non è avere modelli di immagini o audio migliori isolatamente: sono i modelli che gestiscono più modalità insieme, collegando ciò che vedono a ciò che leggono e a ciò che ascoltano. Questo capitolo spiega come un modello fa da ponte tra le modalità, e perché questo cambia ciò che è possibile costruire.

Text and images in one shared spaceAn image of a dog and the words "a dog" are both mapped, by separate encoders, into the same vector space, landing close together. Shared embedding space is what lets a model connect pictures and words.🐕 image“a dog”img enctxt encshared spaceclose together

Insegna due lingue nella stessa aula e cominciano a completarsi le frasi a vicenda.

L'idea dello spazio condiviso

La chiave che sblocca l'IA multimodale è proiettare diversi tipi di dati nello stesso spazio. Ricorda che un modello linguistico trasforma le parole in vettori in modo che significati simili finiscano vicini. Fai lo stesso per le immagini, con un'aggiunta cruciale: addestrare in modo che un'immagine e la sua descrizione finiscano vicine l'una all'altra nello stesso spazio. L'immagine di un cane e le parole "un cane" diventano vicine.

Text and images in one shared spaceAn image of a dog and the words "a dog" are both mapped, by separate encoders, into the same vector space, landing close together. Shared embedding space is what lets a model connect pictures and words.🐕 image“a dog”img enctxt encshared spaceclose together
Encoder separati proiettano un'immagine e il testo corrispondente in uno spazio condiviso, dove finiscono vicini. Questa geometria comune è il ponte.

È ciò che modelli come CLIP (intorno al 2021) hanno dimostrato, ed è il motore silenzioso dietro gran parte dell'IA multimodale: guida testo verso immagine, ricerca di immagini per descrizione, classificazione di immagini senza esempi precedenti. Una volta che immagini e parole condividono una geometria, ci si può muovere tra di esse.

Embedding arithmeticFour word-points in a 2D space. The vector from "man" to "woman" is parallel to the vector from "king" to "queen", visualising the famous king − man + woman ≈ queen relationship.manwomankingqueenking − man + woman ≈ queen2D PROJECTION OF EMBEDDING SPACE
La stessa idea di geometria del significato dal linguaggio, ora attraverso le modalità: i concetti correlati si avvicinano, in qualunque forma siano arrivati.

Modelli visione-linguaggio: modelli che vedono e parlano

I modelli di frontiera moderni sono sempre più multimodali in modo nativo: puoi mostrare loro un'immagine e porre domande, consegnare loro un grafico perché lo leggano, puntare una telecamera e ottenere una descrizione. Sotto il cofano, l'immagine è codificata nella stessa rappresentazione che il modello linguistico consuma, così che il modello ragiona su immagini e testo insieme invece di trattarli come sistemi separati.

È genuinamente potente e ampiamente utile: leggere documenti e moduli, descrivere immagini per l'accessibilità, rispondere a domande visive, comprendere screenshot e diagrammi. È anche il punto in cui la comprensione (leggere un'immagine) e la generazione (crearne una) vivono sempre più in un solo modello, anche se valgono le solite avvertenze sulla fiducia erronea, ora applicate a ciò che il modello afferma di vedere.

Da qualsiasi a qualsiasi: la direzione di marcia

La traiettoria è verso modelli che accettano qualsiasi modalità in input e producono qualsiasi modalità in output: leggere un documento e rispondere a voce, guardare un video e scrivere un riassunto, sentire una domanda e disegnare un diagramma. Siamo a metà strada: testo più visione è comune, l'audio è sempre più integrato, il tutto-verso-tutto sta emergendo. L'idea dello spazio condiviso è ciò che lo rende concepibile.

Per chi costruisce, la conseguenza pratica è che puoi sempre più dare per scontato che un solo modello possa gestire input misti. Le pipeline documentali non hanno più bisogno di un passo OCR separato più un modello di testo; un modello multimodale legge la pagina direttamente. Questa semplificazione (meno passaggi fragili) è silenziosamente uno dei guadagni più importanti a breve termine dell'IA multimodale.

Una riga per ciascuno

  • L'IA multimodale funziona proiettando diversi tipi di dati in uno spazio condiviso in cui un'immagine e la sua descrizione finiscono vicine.
  • Modelli come CLIP l'hanno dimostrato; questo alimenta la guida testo verso immagine, la ricerca di immagini per descrizione e la classificazione senza esempi.
  • I modelli visione-linguaggio ragionano su immagini e testo insieme (potenti per i documenti, l'accessibilità e le domande visive), con la stessa avvertenza sulla fiducia erronea.
  • La direzione è il tutto-verso-tutto; il guadagno a breve termine sono pipeline più semplici (un solo modello legge la pagina, niente passo OCR separato).