Sì. I pesi aperti sono gratuiti da scaricare e da eseguire, e paghi solo le risorse di calcolo che usi. La licenza community Llama è ampiamente permissiva, con condizioni aggiuntive che si applicano solo ai deployment a scala molto grande.

Posso eseguire Llama sui miei server?

Sì, ed è il suo principale punto di forza. I piccoli modelli girano localmente tramite llama.cpp o Ollama; i deployment in produzione usano vLLM o TGI. Tutta l'inferenza resta nel tuo ambiente.

Llama è open source?

È a pesi aperti sotto una licenza community (liberamente scaricabile, eseguibile e modificabile alle condizioni della licenza) invece di open source nel senso dell'OSI. Verifica sempre la licenza in vigore per il tuo caso d'uso.

Qual è la differenza tra Llama e Meta AI?

Llama è la famiglia di modelli. Meta AI è l'assistente consumer che Meta costruisce su Llama, disponibile nelle sue app e sul web. Quando gli ingegneri dicono «Llama», di solito intendono i modelli scaricabili.

Come si confronta Llama con Mistral, Qwen o DeepSeek?

Tutti e quattro sono buone scelte a pesi aperti. Llama dispone dell'ecosistema più ampio e dei migliori strumenti; Mistral è europeo con solidi piccoli modelli; Qwen offre la gamma di dimensioni più ampia e una buona copertura multilingue; DeepSeek è apprezzato per il ragionamento a basso costo. La scelta giusta dipende dal tuo compito, dal tuo hardware e dalle tue esigenze di governance dei dati.

Llama guide

Cos'è Llama?

Llama è la famiglia di grandi modelli linguistici a pesi aperti di Meta, tra le basi più scaricate per costruire e fare autohosting di IA. Scarichi i pesi e li esegui sul tuo hardware o sull'infrastruttura cloud, li affini sui tuoi dati, oppure li chiami tramite uno dei tanti fornitori di hosting.

La famiglia copre piccoli modelli che girano su un portatile o un telefono fino a grandi varianti con istruzioni e multimodali, pubblicate sotto la licenza community Llama (ampiamente permissiva, con condizioni solo a scala molto grande). Un ricco ecosistema aperto (llama.cpp, Ollama, vLLM e Hugging Face) è cresciuto attorno a essa, e Meta AI è l'assistente consumer costruito su di essa.

Se vuoi possedere il modello che alimenta il tuo prodotto (per il costo, la latenza, la riservatezza o l'affinamento), Llama è il punto di partenza a pesi aperti predefinito.

Punti di forza

Dove eccelle

L'autohosting: esegui il modello interamente sulla tua infrastruttura, così che niente lasci la tua rete.
Su dispositivo e in periferia: i piccoli modelli Llama girano localmente su portatili e telefoni tramite llama.cpp o Ollama.
L'affinamento: adatta i pesi aperti al tuo dominio, ai tuoi dati e al tuo tono con tecniche come LoRA.
Il controllo dei costi su larga scala: paghi solo le tue risorse di calcolo invece di una fattura per token presso un fornitore.
L'ecosistema aperto più ampio: strumenti, quantizzazioni, guide e fornitori di hosting sono più numerosi che per qualsiasi altra famiglia aperta.
I deployment sensibili alla riservatezza e alla residenza dei dati in cui i dati semplicemente non possono lasciare il tuo ambiente.

Limiti

Dove fa cilecca

Il ragionamento assoluto in cima alle classifiche: i più grandi modelli chiusi tendono ancora a guidare i benchmark più difficili.
I team senza voglia di gestire un'infrastruttura, a meno che non chiamino Llama tramite un fornitore di hosting gestito.
Un assistente consumer curato e chiavi in mano: Meta AI è orientato al consumatore ma più limitato di ChatGPT o Gemini, e varia a seconda della regione.
I carichi di lavoro che richiedono un livello di servizio garantito da subito: l'autohosting trasferisce disponibilità e supporto tecnico al tuo team.

Come usarlo

Ottenere i pesi

Scarica Llama da Hugging Face o da llama.com dopo aver accettato la licenza. Scegli una dimensione adatta al tuo hardware e una variante affinata con istruzioni («Instruct») per un uso di tipo chat invece del modello di base grezzo.

Le versioni quantizzate (copie più piccole e meno precise) permettono ai modelli più grandi di girare su GPU modeste o persino su CPU, scambiando un po' di qualità per molta portata.

Come usarlo

Eseguirlo: locale o in produzione

Per un uso locale e su dispositivo, llama.cpp e Ollama permettono di far girare un modello quantizzato in pochi minuti. Per il deployment in produzione, vLLM o TGI forniscono l'elaborazione in batch e un endpoint compatibile con OpenAI che il tuo codice esistente può usare.

Se preferisci non gestire GPU, fornitori come Together, Groq, Fireworks e i grandi cloud servono Llama via API: pesi aperti con qualcun altro che gestisce l'infrastruttura.

Come usarlo

Affinamento e recupero

LoRA e QLoRA rendono economico l'affinamento per dominio: addestri un piccolo adattatore invece dell'intero modello, per insegnare a Llama il tuo tono, i tuoi formati o il tuo gergo.

Per le conoscenze che evolvono, conserva il modello di base e aggiungi piuttosto il recupero (RAG) invece di incidere i fatti tramite affinamento; aggiorni un indice invece di riaddestrare.

Come usarlo

Ottenere risposte migliori

Usa le varianti Instruct con un prompt di sistema chiaro, e scegli la dimensione più piccola che supera le tue valutazioni: sovradimensionare un grande modello spreca denaro e aumenta la latenza.

Adatta la quantizzazione al lavoro: una quantizzazione aggressiva va bene per la classificazione o l'estrazione, meno per il ragionamento complesso. Prova alcune configurazioni prima di impegnarti.

Prezzi

Quanto costa Llama

Indicativo, in USD, aggiornato al gennaio 2026. I prezzi cambiano spesso. Verifica sul sito ufficiale prima di farci affidamento.

Pesi aperti

$0 (autohosting)

Gratuiti da scaricare e da eseguire; paghi solo le tue risorse di calcolo. La licenza aggiunge condizioni a scala molto grande.

API ospitata (terze parti)

A consumo

Molti fornitori servono Llama per token, spesso a basso costo, senza GPU da gestire.

Meta AI

L'assistente consumer costruito su Llama, gratuito dove è disponibile.

Visita il sito ufficiale di Llama

Provalo

Esempi di prompt

Copiali in Llama come punto di partenza, poi adattali al tuo compito.

Scegliere la dimensione giusta del modello

Voglio eseguire un agente conversazionale su una singola GPU da 24 GB. Quale modello Llama e quale quantizzazione dovrei usare, quale lunghezza della finestra di contesto è realistica, e quale throughput dovrei prevedere?

Pianificare un affinamento

Descrivi un piano di affinamento LoRA per adattare un modello Llama Instruct al tono della nostra assistenza tecnica. Copri la dimensione del dataset, come costruire il set di valutazione e gli errori comuni da evitare.

Progettare uno stack di autohosting

Raccomanda uno stack di deployment in produzione per Llama sul nostro cluster Kubernetes: motore di servizio, elaborazione in batch, un endpoint compatibile con OpenAI, e come dimensionare il parco di GPU.

FAQ

Llama
domande frequenti.

Risposte dirette alle domande che ci vengono poste più spesso. Se la tua non c'è, scrivi al team.

Contatta il team

Llama

Dove eccelle

Dove fa cilecca

Ottenere i pesi

Eseguirlo: locale o in produzione

Affinamento e recupero

Ottenere risposte migliori

Quanto costa Llama

Esempi di prompt

Llama
domande frequenti.

Guide correlate

Mistral

Qwen

DeepSeek

Portare l'IA in produzione?

Dove eccelle

Dove fa cilecca

Ottenere i pesi

Eseguirlo: locale o in produzione

Affinamento e recupero

Ottenere risposte migliori

Quanto costa Llama

Esempi di prompt

Llamadomande frequenti.

Llama è gratuito?

Posso eseguire Llama sui miei server?

Llama è open source?

Qual è la differenza tra Llama e Meta AI?

Come si confronta Llama con Mistral, Qwen o DeepSeek?

Guide correlate

Mistral

Qwen

DeepSeek

Portare l'IA in produzione?

Llama
domande frequenti.