Vai al contenuto
Impara · Guida · Meta

Llama

La famiglia di modelli a pesi aperti di Meta, la base più scaricata per l'IA autohostata e su dispositivo, libera da eseguire e da affinare sotto una licenza community.

Meta8 min di letturawww.llama.com

Cos'è Llama?

Llama è la famiglia di grandi modelli linguistici a pesi aperti di Meta, tra le basi più scaricate per costruire e fare autohosting di IA. Scarichi i pesi e li esegui sul tuo hardware o sull'infrastruttura cloud, li affini sui tuoi dati, oppure li chiami tramite uno dei tanti fornitori di hosting.

La famiglia copre piccoli modelli che girano su un portatile o un telefono fino a grandi varianti con istruzioni e multimodali, pubblicate sotto la licenza community Llama (ampiamente permissiva, con condizioni solo a scala molto grande). Un ricco ecosistema aperto (llama.cpp, Ollama, vLLM e Hugging Face) è cresciuto attorno a essa, e Meta AI è l'assistente consumer costruito su di essa.

Se vuoi possedere il modello che alimenta il tuo prodotto (per il costo, la latenza, la riservatezza o l'affinamento), Llama è il punto di partenza a pesi aperti predefinito.

Punti di forza

Dove eccelle

  • L'autohosting: esegui il modello interamente sulla tua infrastruttura, così che niente lasci la tua rete.
  • Su dispositivo e in periferia: i piccoli modelli Llama girano localmente su portatili e telefoni tramite llama.cpp o Ollama.
  • L'affinamento: adatta i pesi aperti al tuo dominio, ai tuoi dati e al tuo tono con tecniche come LoRA.
  • Il controllo dei costi su larga scala: paghi solo le tue risorse di calcolo invece di una fattura per token presso un fornitore.
  • L'ecosistema aperto più ampio: strumenti, quantizzazioni, guide e fornitori di hosting sono più numerosi che per qualsiasi altra famiglia aperta.
  • I deployment sensibili alla riservatezza e alla residenza dei dati in cui i dati semplicemente non possono lasciare il tuo ambiente.
Limiti

Dove fa cilecca

  • Il ragionamento assoluto in cima alle classifiche: i più grandi modelli chiusi tendono ancora a guidare i benchmark più difficili.
  • I team senza voglia di gestire un'infrastruttura, a meno che non chiamino Llama tramite un fornitore di hosting gestito.
  • Un assistente consumer curato e chiavi in mano: Meta AI è orientato al consumatore ma più limitato di ChatGPT o Gemini, e varia a seconda della regione.
  • I carichi di lavoro che richiedono un livello di servizio garantito da subito: l'autohosting trasferisce disponibilità e supporto tecnico al tuo team.
Come usarlo

Ottenere i pesi

Scarica Llama da Hugging Face o da llama.com dopo aver accettato la licenza. Scegli una dimensione adatta al tuo hardware e una variante affinata con istruzioni («Instruct») per un uso di tipo chat invece del modello di base grezzo.

Le versioni quantizzate (copie più piccole e meno precise) permettono ai modelli più grandi di girare su GPU modeste o persino su CPU, scambiando un po' di qualità per molta portata.

Come usarlo

Eseguirlo: locale o in produzione

Per un uso locale e su dispositivo, llama.cpp e Ollama permettono di far girare un modello quantizzato in pochi minuti. Per il deployment in produzione, vLLM o TGI forniscono l'elaborazione in batch e un endpoint compatibile con OpenAI che il tuo codice esistente può usare.

Se preferisci non gestire GPU, fornitori come Together, Groq, Fireworks e i grandi cloud servono Llama via API: pesi aperti con qualcun altro che gestisce l'infrastruttura.

Come usarlo

Affinamento e recupero

LoRA e QLoRA rendono economico l'affinamento per dominio: addestri un piccolo adattatore invece dell'intero modello, per insegnare a Llama il tuo tono, i tuoi formati o il tuo gergo.

Per le conoscenze che evolvono, conserva il modello di base e aggiungi piuttosto il recupero (RAG) invece di incidere i fatti tramite affinamento; aggiorni un indice invece di riaddestrare.

Come usarlo

Ottenere risposte migliori

Usa le varianti Instruct con un prompt di sistema chiaro, e scegli la dimensione più piccola che supera le tue valutazioni: sovradimensionare un grande modello spreca denaro e aumenta la latenza.

Adatta la quantizzazione al lavoro: una quantizzazione aggressiva va bene per la classificazione o l'estrazione, meno per il ragionamento complesso. Prova alcune configurazioni prima di impegnarti.

Prezzi

Quanto costa Llama

Indicativo, in USD, aggiornato al gennaio 2026. I prezzi cambiano spesso. Verifica sul sito ufficiale prima di farci affidamento.

Pesi aperti

$0 (autohosting)

Gratuiti da scaricare e da eseguire; paghi solo le tue risorse di calcolo. La licenza aggiunge condizioni a scala molto grande.

API ospitata (terze parti)

A consumo

Molti fornitori servono Llama per token, spesso a basso costo, senza GPU da gestire.

Meta AI

$0

L'assistente consumer costruito su Llama, gratuito dove è disponibile.

Visita il sito ufficiale di Llama
Provalo

Esempi di prompt

Copiali in Llama come punto di partenza, poi adattali al tuo compito.

Scegliere la dimensione giusta del modello

Voglio eseguire un agente conversazionale su una singola GPU da 24 GB. Quale modello Llama e quale quantizzazione dovrei usare, quale lunghezza della finestra di contesto è realistica, e quale throughput dovrei prevedere?

Pianificare un affinamento

Descrivi un piano di affinamento LoRA per adattare un modello Llama Instruct al tono della nostra assistenza tecnica. Copri la dimensione del dataset, come costruire il set di valutazione e gli errori comuni da evitare.

Progettare uno stack di autohosting

Raccomanda uno stack di deployment in produzione per Llama sul nostro cluster Kubernetes: motore di servizio, elaborazione in batch, un endpoint compatibile con OpenAI, e come dimensionare il parco di GPU.

FAQ

Llama
domande frequenti.

Risposte dirette alle domande che ci vengono poste più spesso. Se la tua non c'è, scrivi al team.

Lavorare con SDEN

Portare l'IA in produzione?

Aiutiamo i team a scegliere i modelli giusti e a metterli in produzione in sicurezza, self-hosted quando i dati lo richiedono. E ti consegniamo le chiavi per gestirli in autonomia.

Llama guide · SDEN