intelligenza artificiale

Ollama libera l’AI: ora chiunque può usare i modelli sul PC

Grazie alla collaborazione tra Ollama e Hugging Face, è ora possibile eseguire oltre 40.000 modelli AI localmente senza competenze di programmazione, democratizzando l’accesso all’intelligenza artificiale

Pubblicato il 15 nov 2024

Antonio Cisternino

Università di Pisa

Ormai non si fa altro che parlare di AI e tutti cominciano a prevedere (o augurare) lo scoppio di una bolla tecnologica legata a queste nuove tecnologie. Ma l’AI ha una lunga storia, ed aveva già raggiunto risultati importanti in passato. Come mai, allora, proprio ora è divenuta così rilevante?

Ollama: come eseguire modelli di AI generativa su più piattaforme

Indice degli argomenti

Perché l’AI è esplosa solo ora

La ragione principale è che i modelli sono abbastanza generali da poter essere impiegati in molte situazioni senza doversi preoccupare del loro addestramento, e costruire sul lavoro fatto da altri limitandosi ad utilizzarne le funzioni. Si tratta di un passaggio analogo alla separazione tra programmatori e utilizzatori dei programmi che ha consentito l’accesso ai computer a tutti e non solo agli specialisti.

È quello che avviene con sistemi come ollama, un’applicazione divenuta molto popolare per l’esecuzione di modelli aperti e che recentemente ha annunciato un accordo con il popolare sito Hugging Face per consentire l’esecuzione di oltre 40.000 modelli disponibili nel modello GGUF, cosa significa e perché è importante?

Cos’è Ollama

Ollama è uno strumento sempre più popolare per eseguire sul proprio computer modelli di intelligenza artificiale compatibili con la famiglia di modelli llama di Meta. I modelli sono rappresentati fisicamente in vari formati come il GGUF oppure ONNX ed assumono architetture specifiche sulla rete neurale che rappresentano e che non è detto che un programma sia in grado di leggere o eseguire.

Ollama è un’applicazione basata su un popolare sistema scritto il C++ nato per l’esecuzione dei modelli di Meta LLama chiamato llama.cpp. Ecco quindi che i modelli che non sono eseguibili da questa particolare libreria non sono eseguibili da questo particolare sistema ed è necessario ricorrere ad altri sistemi oppure a scrivere piccoli programmi Python per poterli eseguire.

Data la popolarità dei modelli di Meta e di modelli compatibili, ollama è divenuto rapidamente popolare proprio perché consente l’esecuzione di un modello senza dover programmare e ha supportato vari modelli, inclusa la famiglia gemma di Google e la famiglia phi di Microsoft.

Perché Ollama è il più pop tra i sistemi che consentono l’esecuzione di modelli

Ollama non è l’unico sistema che consente l’esecuzione di modelli, LM Studio per esempio offre anche un’interfaccia grafica per interagire con i modelli ed ha supportato fin da subito anche Hugging Face. Quello che rende ollama popolare è però la sua leggerezza e il buon supporto dell’API di OpenAI per le chat che consente di integrare facilmente un sistema scritto per usare i modelli di OpenAI con modelli in esecuzione localmente.

La sua natura di esecuzione a riga di comando lo rende inoltre facile da trasformare in servizio da erogare localmente. Non è un caso che su GitHub si siano moltiplicati i progetti open source (ad esempio ollama_proxy_server) che consentono l’esecuzione di più istanze di ollama su più computer per realizzare un vero e proprio servizio locale di AI generativa.

La collaborazione tra Ollama e Hugging Face: oltre 40 mila modelli AI sul PC

Ecco, quindi, che la collaborazione tra ollama e Hugging Face apre una nuova opportunità di rendere fruibili oltre quarantamila modelli in formato GGUF del popolare sito dedicato all’AI all’esecuzione sul proprio computer senza dover programmare.

Per eseguire un modello di Hugging Face con ollama è sufficiente usare come nome del modello hf.co/username/repository. Ma come si individuano modelli papabili? Se si vuole provare un modello di cui si è letto allora basta provare e il sistema ci dirà se il particolare modello è compatibile.

In alternativa usando la search del sito è possibile chiedere solo i modelli GGUF, e usando i gli altri filtri ci possiamo aiutare a cercare modelli che svolgono un particolare compito, come ad esempio la conversione di immagini in testo.

Immagine che contiene testo, schermata, Carattere, documentoDescrizione generata automaticamente

Immagine che contiene testo, Carattere, numero, schermataDescrizione generata automaticamente

Esplorare i modelli

Tutti noi siamo abituati a pensare a modelli noti come le famiglie Llama, gemma, o phi, ma la comunità sviluppa continuamente nuovi modelli in numerose varianti. Esplorare e provare versioni differenti di modelli può consentire di individuare modelli magari meno generali ma specializzati per compiti specifici e quindi più facili da inserire in un contesto applicativo.

Se per esempio ho necessità di trascrivere un flusso audio in italiano posso cercare modelli che fanno “automatic speech recognition” e filtrare per il supporto in italiano per trovare un modello che a questo punto potrò provare per verificarne le capacità.

Immagine che contiene testo, Carattere, schermata, biancoDescrizione generata automaticamente

La comunità è molto attiva ed è quindi opportuno abituarsi all’idea che i modelli nascono e muoiono e vengono continuamente aggiornati. Non esistono alternative al provare cercando di non affezionarsi troppo ad un particolare modello. I modelli però possono essere anche ragionevolmente piccoli ed eseguibili su un sistema anche senza disporre di una GPU, aprendo alla possibilità di integrare facilmente all’interno delle proprie applicazioni funzioni di intelligenza artificiale.

Conclusioni

La possibilità di eseguire modelli di AI generativa in modo semplice e senza dover conoscere alcun linguaggio di programmazione rende più facile l’esplorazione e la valutazione di modelli per un possibile impiego in vari sistemi. Se i grandi modelli possono richiedere enormi capacità computazionali ve ne sono numerosi che, essendo specializzati, assolvono bene compiti specifici senza necessitare di ingenti risorse di calcolo. È quindi importante familiarizzarsi con applicativi che ne consentono l’esecuzione come ollama per poterne verificare il funzionamento e allo stesso tempo, se adeguati ad un particolare compito, a poterli eseguire in un sistema di produzione.