L’annuncio di Google del nuovo modello AI chiamato Gemini e che si propone direttamente in competizione con i modelli GPT di OpenAI ha nuovamente cambiato lo scenario degli strumenti disponibili e utilizzabili per integrare l’AI nei propri processi produttivi, siano essi individuali mediante sistemi come ChatGPT, Copilot, Bard, Duet, o Amazon Q, sia ricorrendo a programmazione e all’uso di API e librerie per arricchire i sistemi con funzionalità di intelligenza artificiale.
Il panorama attuale dei modelli AI
Si susseguono gli annunci di nuovi modelli piccoli (rispetto alle centinaia di miliardi di parametri utilizzati dai big) che promettono prestazioni similari nonostante le ridotte dimensioni e capacità computazionali richieste; tra questi sicuramente meritano una menzione i modelli Mistral, Mixtral, Loquace, e Llama 2, solo per citarne alcuni.
Anche sul fronte normativo assistiamo ad una continua evoluzione del quadro, in particolare gli accordi raggiunti in Europa sull’AI act cominciano a delineare un percorso di regolamentazione che sembra essere condiviso con gli Stati Uniti.
Come è possibile orientarsi e scegliere tecnologie da impiegare in questo scenario fortemente variabile e in cui si ha la sensazione di “perdere il treno” se si punta sulla tecnologia “sbagliata”? Cerchiamo di fare il punto e capire come orientarsi e scegliere le tecnologie da impiegare.
Da mega a micro: l’importanza delle dimensioni nel mondo dell’AI
È quasi ufficiale: esistono modelli AI di taglie differenti e saranno disciplinati in modo differente dai regolamenti, le AI ad alto impatto sono infatti qualificate dalla potenza computazionale necessaria alla loro esecuzione, e sembra che l’AI act preveda 10^25 FLOPs (dieci milioni di miliardi di miliardi di operazioni in virgola mobile al secondo) come soglia per discriminare i modelli grandi (ad oggi si pensa solo GPT-4 e Gemini). Da questa considerazione sembrerebbe quasi che la dimensione del modello renda più “intelligente” il sistema, ma questo non è necessariamente vero, esistono modelli con molti meno parametri rispetto a questi modelli giganti che sono capaci di esibire comportamenti comunque interessanti.
Esporre l’addestramento di una AI a 1.560 miliardi di parole come nel caso di Google Gemini non la rende necessariamente più “smart” di AI addestrate con molte meno informazioni e parametri. La capacità di ragionare e di eseguire istruzioni non coincide con le informazioni apprese e può essere ottenuta con prestazioni decisamente sorprendenti in modelli molto più piccoli, come ad esempio il modello Mistral 7B (ovverosia sette miliardi di parametri rispetto ai 175 miliardi usati da GPT-3.5). Anche Sam Altman sostiene che il futuro sarà di modelli più piccoli che si coordinano insieme, e si narra che questo è l’approccio seguito da OpenAI per addestrare GPT-4.
Nel mondo dei modelli più piccoli, ha fatto notizia l’annuncio di Mixtral, un modello da 7B dalla startup francese Mistral dove vengono combinati 8 modelli con una tecnica innovativa offrendo una sorta di 8 esperti combinati un unico modello.
I modelli più piccoli si possono anche eseguire localmente, anche se è importante ricordare che le richieste computazionali per la loro esecuzione sono spesso al limite di un singolo PC, e ci sono modelli che esplicitamente richiedono GPU di classe server che portano ad un’esplosione del costo per la sola esecuzione e spesso con performance deludenti se confrontate rispetto a quelle a cui le big tech ci hanno abituato (la velocità con cui viene generato il testo e dopo quanto il sistema comincia a rispondere).
L’interazione multimodale: oltre il testo
OpenAI per prima ha rilanciato con l’annuncio di marzo di GPT-4: sin dal lancio un punto di forza del nuovo modello era questa interazione che si estendeva alle immagini e non si limitava alla sola generazione testuale. Ci sono voluti molti mesi perché questo annuncio divenisse realtà, ma ormai usando la app di ChatGPT consente di interagire vocalmente caricare foto e scrivere per interagire con l’intelligenza artificiale.
Google con l’annuncio dei nuovi modelli di AI chiamati Gemini ha sottolineato ulteriormente l’aspetto multimodale nell’interazione mostrando un video in cui un utente interagisce con la AI che commenta il disegno che sta facendo quasi come se si trattasse di un assistente proattivo capace di consigliare e non solo rispondere a domande. Il video si è poi scoperto essere stato accelerato, ma comunque le capacità del nuovo modello avranno sicuramente impatti significativi. Google ha poi sottolineato come Gemini abbia dimostrato prestazioni superiori a GPT-4 nella sua versione Ultra e a GPT-3.5 nella versione Pro. C’è poi il modello “nano” disegnato per poter essere eseguito sugli smartphone aprendo nuovi scenari e sfidando Apple in un’area dove l’azienda della mela non sembra essere troppo attiva (almeno per il momento).
Il modello Llava è il modello open capace di analizzare immagini e generare testo e quindi supportare un’interazione multimodale.
Come scegliere il modello più performante
Tra i primi messaggi di Google con l’annuncio di Gemini abbiamo visto il confronto con GPT relativamente ad un certo numero di test che si usano per valutare le capacità di un modello AI, mostrando come i nuovi modelli fossero superiori a quelli di OpenAI. Si tratta di confronti indicativi, e a volte semplicemente usando il modello in modo più ingegnoso è possibile ottenere risultati migliori.
Infatti Microsoft Research ha pubblicato a stretto giro un post di confronto che mostra come utilizzando altre tecniche di prompting le performance di GPT-4 raggiungono sostanzialmente quelle di Gemini su un particolare test:
Anche Mistral con l’annuncio del modello Mixtral ha confrontato con Llama 2 e GPT-3.5 le prestazioni del nuovo modello:
Queste affermazioni e questi numeri vanno saputi leggere, il comportamento dei modelli è molto articolato e le prestazioni in senso assoluto difficilmente rappresentano un confronto significativo se non in termini di capacità generali del modello.
Modelli a confronto
Mixtral offre prestazioni confrontabili con Llama 2 a 70 miliardi di parametri e con GPT-3.5, si può quindi dire che è un modello di quella “classe”. Gli impieghi determineranno realmente la sua qualità in un particolare contesto applicativo.
Lo stesso si può dire dei modelli annunciati da Google: il gigante americano sembra aver colmato il gap con OpenAI e dispone finalmente di un modello confrontabile e non decisamente inferiore come era al momento del primo rilascio di Google Bard.
L’importanza del contesto operativo nella scelta dell’AI
La capacità del modello anche in questo caso non racconta tutta la storia: OpenAI ha un ecosistema maturo, supporta funzionalità come i plugin, le funzioni, la search Web (non ancora disponibile nella nuova versione di Bard come si nota dall’interazione mostrata in figura da cui si potrebbe dedurre che la conoscenza è circa un anno indietro rispetto ad oggi), e il modello che esegue codice per elaborare dati.
Si può pensare di utilizzare sistemi multimodello come Amazon Bedrock (utilizzato in Amazon Q), ma la realtà è che il panorama è ancora troppo fluido per individuare una direzione chiara.
È quindi importante contestualizzare la scelta dell’AI in base alle proprie necessità (devo eseguire localmente per riservatezza? Ho bisogno di molta conoscenza? Il modello deve seguire istruzioni o essere creativo?) e al contesto operativo.
Vantaggi e sfide dell’utilizzo dei modelli AI delle big tech
Il panorama delle big è evidentemente più stabile rispetto ai modelli open che nascono in continuazione su Hugging Face, e sicuramente offrono prospettive più stabili da un punto di vista di sviluppo enterprise. Ma non bisogna perdere di vista questi modelli più piccoli: si tratta di modelli che possono essere molto efficaci in contesti specifici e sicuramente si possono raffinare molto più semplicemente per introdurre nuova conoscenza legata ad un compito specifico.
Conclusioni
Limitarsi a misurare le AI in base alla pura funzione del modello LLM sembra essere sempre meno significativo. Il passaggio ad un’interazione multimodale fatta di testo, immagini e video, rende queste AI molto di più di un semplice chatbot. Le API giocheranno un ruolo sempre più importante per disaccoppiare il software dai modelli, e molte seguono OpenAI poiché si tratta dell’ecosistema più maturo.
L’esecuzione di modelli “on-premise” è sicuramente possibile ma non va sottovalutata la necessità di capacità computazionale e quindi gli investimenti necessari alla realizzazione di un servizio. Vanno poi seguite le evoluzioni di questi modelli per evitare di trovarsi in un “binario morto” perché l’arrivo di un nuovo modello porta gli sviluppatori ad abbandonarne uno precedente.
In tutto questo risulta molto difficile anche assicurare comportamenti predicibili sia in termini di stile delle risposte che di allucinazioni, e di conseguenza è necessario dotarsi di opportuni sistemi di testing per assicurarsi che gli aggiornamenti non compromettano il comportamento di sistemi già scritti.