Le ultime novità presentate da OpenAi la settimana scorsa sono destinate a fissare un nuovo stato dell’arte a tutti gli altri attori in questo mercato emergente, confermando la leadership in termini di direzione dell’azienda guidata da Sam Altman.
A sottolineare la portata dell’evento è stato il CEO di Microsoft Satya Nadella che ha affiancato il CEO di OpenAI sottolineando la forte partnership tra le due aziende, con Microsoft che ha confermato come l’architettura stessa del cloud Azure è stata fortemente influenzata dallo sviluppo della partnership contribuendo alla creazione di design orientati all’esecuzione dei modelli LLM su larga scala capaci di rispondere ai volumi di richieste che il crescente ecosistema di applicazioni richiede.
Il succo degli annunci OpenAi
Gli annunci di Altman sono stati a tutto tondo:
migliorie ai modelli esistenti,
l’apertura di alcuni modelli a tutti,
nuove API per accedere alle capacità multimodali di GPT-4,
l’abilità di generare voce,
la possibilità di creare assistenti specializzati,
l’introduzione di uno store per AI generativa dove gli assistenti generati dagli utenti potranno essere “monetizzati”,
ed una revisione del modello dei costi.
Insomma, si tratta di un’ennesima rivoluzione, ed è difficile tenere il passo e comprendere le implicazioni di ciascuno degli annunci, e come questi cambiamenti potranno condizionare il panorama dell’AI generativa nel prossimo futuro.
Cerchiamo quindi di capire gli elementi centrali degli annunci e le loro implicazioni in termini di evoluzione del panorama dell’AI generativa
.I nuovi modelli GPT-3.5 e GPT-4 e il “contesto”
OpenAI ha ascoltato le numerose richieste da parte degli sviluppatori ed ha affrontato alcuni aspetti critici relativi ai modelli già disponibili affrontando il problema della data a cui risalgono le ultime informazioni disponibili (che come molti sanno era ferma al 2021) e quella di fornire più elementi al modello direttamente nell’input per poter controllare al meglio le risposte ottenute integrando con conoscenza specifica la sua conoscenza generale come è ormai prassi con i sistemi RAG come Sibylla, Haystack e Llama Index.
OpenAI contiene a mantenere i modelli GPT-3.5 e GPT-4 orientati ad applicazioni più semplici il primo, con risposte più veloci e costi ridotti, e ad interazioni più sofisticate e controllabili col secondo.In entrambi i casi i modelli sono stati aggiornati ad aprile 2023, riducendo il gap tra la conoscenza dell’AI e la realtà del mondo.
Altman ha sottolineato che OpenAI si impegna a fare aggiornamenti più frequenti proprio per assicurare che la conoscenza del modello stesso sia ragionevolmente aggiornata anche in assenza di integrazione di informazioni provenienti da motori di ricerca come Bing nel caso di GPT. Si tratta di una notizia importante poiché in questo modo la conoscenza relativa a fatti recenti diviene organica nel modello mentre quando la si aggiunge a posteriori è più difficile che le informazioni fornite siano capaci di dare la prospettiva necessaria per rispondere a domande che non siano puntuali.
Anche l’investimento è notevole poiché la selezione dei contenuti per l’addestramento dei modelli è una delle principali misure per controllare il comportamento dell’AI (contrariamente all’approccio che Elon Musk sta seguendo con Grok-1 e xAI) e l’impegno ad aggiornare frequentemente i modelli impone che il team che rivede i contenuti da usare per l’addestramento debba rivedere il proprio modo di funzionare per assicurare la disponibilità di nuove informazioni opportunamente filtrate per evitare contenuti che potrebbero essere pericolosi (evidentemente questo è un punto delicato nell’addestramento dei modelli AI poiché le scelte determinano eventuali bias e condizionano le informazioni dando di fatto a chi addestra i modelli il diritto di censurare).
Oltre all’aggiornamento delle informazioni usate per addestrare i modelli sono stati annunciati miglioramenti significativi sia per GPT-3.5 che per GPT-4.
Nel primo caso il contesto passa per default da 4k a 16k, ovverosia la dimensione massima dell’input al modello, che prima era limitato a 4.000 token (circa 12.000 caratteri), quadruplica consentendo di fornire l’equivalente di oltre trenta pagine di testo.
Questo consentirà in sempre più casi di passare le informazioni al modello senza doverle “spezzettare” e consentirà inoltre di porre questioni complessive su un testo a cui non sarebbe possibile dare risposta spezzettandolo.
Se, ad esempio, un testo contiene una tesi con una premessa all’inizio e una conclusione verso la fine del documento senza poter fornire l’intero documento si priva l’opportunità al modello di poter considerare l’intero ragionamento e quindi ottenere informazioni incomplete o errate.
Anche GPT-4 vede una grande novità: l’introduzione della variante del modello denominata turbo che è più capace, precisa e soprattutto economica (con una riduzione di un fattore 3 dei costi dell’input e di un fattore 2 dei costi del testo generato).
Anche in questo caso il contesto passa da un massimo di 32 mila token a ben 128 mila token, consentendo di fornire al più l’equivalente di 300 pagine di testo in input (attenzione, al crescere dell’input aumentano i costi che possono arrivare a superare 1$ per invocazione nel caso si usi l’intero contesto di questo modello).
È importante sottolineare anche la necessità di usare il termine contesto e non di prompt: ormai i modelli ricevono in input ben più del “semplice” prompt scritto dall’utente, e sempre più spesso il prompt viene arricchito con informazioni di cui l’utente finale è spesso all’oscuro.
È importante quindi cominciare a ragionare in termini di “contesto” ovverosia tutte le informazioni che vengono fornite al modello per produrre l’output (che includono, ad esempio, il prompt di base a una parte delle interazioni di una chat).
Da un punto di vista più tecnico anche le “funzioni” sono state migliorate, adesso il modello è più efficace nel richiedere l’invocazione di funzioni esterne con parametri estrapolati dal contesto. È possibile quindi che identifichi i parametri di una chiamata che consente poi di invocare una o più funzioni esterne (che magari consultano il database aziendale o effettuano una qualche azione legata alla richiesta fatta).
Un altro dettaglio tecnico non di poco conto è quello di poter controllare il “seme” usato per generare i numeri casuali che selezionano i token più probabili usando il modello. Questo significa che uno sviluppatore può ottenere nuovamente lo stesso output a parità di input, eliminando l’aspetto aleatorio che queste tecnologie hanno esibito finora. Le applicazioni sembrano per ora limitate al debugging, ma è sicuramente un passo importante per lo sviluppo di sistemi che siano più “deterministici” e per la comprensione di alcuni comportamenti del modello.
È importante sottolineare anche come tutte le innovazioni introdotte si sono allontanate dal dibattito del numero di parametri del modello. È sicuramente un passaggio importante che riconosce come alla fine quello che conta siano le capacità di un modello piuttosto che le sue dimensioni.
L’AI generativa diventa multimodale
Un’altra novità degna di nota è il rilascio dell’API “vision”, ovverosia l’abilità di fornire a GPT-4 video e immagini potendosi affidare alla notevole capacità di analisi che ormai conosciamo attraverso l’uso di ChatGPT (nella versione plus) o di Bing chat.
Contestualmente adesso sappiamo anche i costi collegati all’analisi di immagini, e sono decisamente interessanti: l’analisi di un’immagine 1024×1024 costa 1 centesimo di dollaro, consentendo l’accesso a questo tipo di tecnologia a molte più industrie senza doversi dotare di esperti di visione e di GPU per poter eseguire i modelli (bisogna però fare attenzione poiché i classificatori di immagini e video specificatamente addestrati sono più predicibili, affidabili e veloci, mentre sappiamo bene che i modelli generativi possono allucinare).
Un esempio saranno sicuramente fotocamere smart che analizzeranno l’immagine col modello per poi prendere decisioni sugli elementi riconosciuti e potenzialmente assistendo il fotografo nel processo di acquisizione.
Ma non sono solo gli “occhi” di OpenAI a colpire, al modello whisper capace di trascrivere testi si affianca il modello per generare il parlato a partire dal testo in qualsiasi lingua scegliendo tra sei voci distinte. Chi ha provato l’interazione vocale della App di ChatGPT (sempre nella versione Plus) sa di cosa si parla.
Personalmente ritengo che non sia solo la disponibilità delle nuove API a colpire, ma il fatto che attraverso l’integrazione di queste API sia possibile scrivere applicazioni multimodali, allontanandosi di fatto dalla mera tematica del modello LLM di generazione di testo. Sarà interessante vedere quanto queste nuove capacità porteranno a sistemi realmente multimodali.GPTs: arrivano gli assistenti intelligenti
.Cento, mille ChatGpt…personalizzati
L’annuncio più grande riguarda sicuramente l’introduzione di una API e di un’interfaccia Web attraverso cui è possibile generare assistenti AI basati su GPT e integrati con direttive e conoscenze specifiche.
Si tratta di un cambio di paradigma importante poiché sarà possibile realizzare con pochi click un ChatGPT “personalizzato” con capacità e conoscenze specifiche, e lo potranno fare tutti, anche senza disporre di conoscenze di programmazione. Altman ha anche annunciato a breve la disponibilità di uno store dove gli utenti potranno vendere le proprie creazioni, costituendo così l’equivalente dell’Apple Store per le intelligenze artificiali. Si possono già vedere i primi esempi fatti da OpenAI cliccando sulla funzione “Explore” che appare nell’interfaccia.L’esperienza di creazione è veramente semplice, ma ottenere un ChatBot che sia effettivamente utile a degli utenti richiede sperimentazione e lavoro per trovare il giusto mix di informazioni e direttive affinché il risultato sia di una qualche utilità. Si può chiedere direttamente a GPT di configurarne uno oppure indicare i parametri manualmente come mostrato in figura:Essendo io, con Sibylla e Oraculum, tra gli sviluppatori di sistemi basati su Vector Database e Chat GPT, mi sono subito posto la domanda se ha ancora senso continuare oppure OpenAI abbia reso superfluo lo sforzo. Dai primi esperimenti emerge chiaramente che usando gli assistenti di OpenAI è difficile disporre di un reale controllo dell’output, anche se gli agenti generati vanno benissimo per fornire informazioni generali relativamente ad un particolare tema.
I sistemi RAG per contro consentono allo sviluppatore un controllo molto più accurato dell’informazione e di conseguenza del risultato, e l’ampliamento del contesto aiuta decisamente a migliorare la qualità delle risposte.Come spesso accade nelle fasi iniziali dello sviluppo di una tecnologia molte startup dovranno porsi la domanda se il proprio sistema non sia divenuto obsoleto a causa del rilascio delle nuove funzioni di OpenAI.
Una piattaforma per l’AI generativa
L’evento rivolto agli sviluppatori candida di fatto OpenAI a svolgere il ruolo che Microsoft ha svolto negli anni novanta: fornire un sostrato stabile per realizzare applicazioni che fanno uso delle capacità dell’AI. Non c’è progetto digitale su Kickstarter o Indiegogo che non preveda l’integrazione con ChatGPT e le sue API, e i nuovi annunci continuano in questa direzione e in assoluta sintonia con Microsoft che ha fatto da sempre degli sviluppatori una parte centrale del proprio business model.
L’interfaccia per la creazione degli assistenti mi ha ricordato per molti versi Visual Basic: si tratta di un sistema sicuramente non flessibile ma che aiuterà le persone creative a dar vita alle proprie idee senza dover diventare tecnici esperti.Adesso non rimane che osservare le contromosse di Google che sta lavorando all’AI Gemini, alle direzioni che xAI intraprenderà con Grok-1, ai modelli Llama di Meta e alle mosse di Amazon, Apple, e gli altri colossi.
Sicuramente lo sviluppo dell’AI generativa è saldamente in mano agli Stati Uniti, sia per i modelli che per gli acceleratori necessari alla loro esecuzione, è un fatto che dovrebbe spingere anche l’Europa a non abdicare a questo settore strategico, e in tal senso non posso non ricordare che il modello Mistral-7B val la pena di essere provato e tenuto sotto osservazione.
Non mi resta che augurare buon sviluppo a tutti, e vediamo l’introduzione della creatività che novità ci porterà nell’immediato futuro.