OpenAI e Google hanno fatto i nuovi annunci, Google ha addirittura contato il numero di volte che “AI” è stata pronunciata durante gli annunci di Google I/O (in un intorno di 120), ma a parte l’attenzione mediatica cosa possiamo dedurre da questo nuovo giro di annunci?
Siamo tutti abituati al sensazionalismo odierno dove ogni nuovo annuncio è “epocale” o un “game changer” anche se alla fine si tratta di un passaggio evolutivo naturale nell’evoluzione di una tecnologia. L’arrivo dell’AI generativa è sicuramente stato un passaggio “epocale” aprendo un’epoca in cui le macchine hanno invaso il campo dell’uomo generando contenuti che stanno divenendo via via sempre più accurati e sorprendenti.
E in questo panorama come dobbiamo interpretare i nuovi annunci? Sia in termini di tecnologia ma anche di comunicazione, nella speranza di individuare traiettorie di evoluzione di quelli che sembrano i due big player nel campo dei mega modelli.
OpenAi e Google: una interpretazione degli annunci recenti
OpenAI ha inaugurato gli annunci lunedì 13, con una tempistica che, secondo molti e incluso il sottoscritto, sembra volta a diluire la visibilità degli annunci di Google I/O che partiva il giorno successivo. In un evento molto sobrio, coordinato non da Sam Altman ma bensì da Mina Murati, sono stati annunciati il modello GPT-4o (dove ‘o’ sta per omni), un modello dichiaratamente equivalente a GPT-4 dal punto di vista dell’”intelligenza”, ma capace di elaborare non solo testo ma anche audio e video, generando non solo testo ma anche parlando e, addirittura, cantando. Altro elemento centrale la messa a disposizione di GPT-4o, dei GPTs e del sistema di analisi dati anche agli utenti del livello gratuito del servizio (anche se ovviamente con capacità contingentata).
Google per conto suo ha annunciato Gemini Live, un servizio simile a GPT-4o capace di conversare e analizzare in tempo reale flussi video. Sono state poi annunciate numerose integrazione dei servizi del modello Gemini nei vari prodotti Google ed è stato annunciato anche Project Astra, un assistente a tutto tondo che consente di supportare non solo le conversazioni ma anche intraprendere azioni agganciandosi ovviamente ai servizi di Google.
Con il suo supporto possiamo immaginare di ricevere aiuto nell’organizzazione di un viaggio o nella ricerca di posti interessanti o, ancora, informazioni relative a quello che si sta vedendo e che possiamo condividere con l’assistente attraverso la video camera del nostro dispositivo.
Fin qui i fatti, ma come li possiamo interpretare?
Due percorsi differenti a confronto
Sia il carattere degli annunci, sia l’enfasi posta sulle funzioni, sembra identificare chiaramente intenzioni differenti che si traducono in filosofie differenti di approccio nonostante entrambi sembrino puntare sull’AI generativa multimodale e non più solo testuale.
Google: evoluzione e integrazione dei servizi AI
Google deve fare i conti con il business esistente e come farlo evolvere includendo i servizi AI senza cannibalizzare le proprie revenues: da quando la search è integrata con l’AI io spesso preferisco chiedere all’AI e verificare i risultati solo se ne sento il bisogno cliccando sulle fonti; non penso di essere l’unico e questo rappresenta un problema per una compagnia che vive di click, l’AI rischia di divenire un “divisore” di click richiedendo la ricerca di un nuovo modello di monetizzazione del servizio. E il gigante di Mountain View ci ha abituato a mosse volte a garantire un flusso di click adeguato ai propri servizi, per questo ha sostenuto il progetto Android e il browser Chrome, ora sembra alla ricerca di una via analoga nel mondo dell’AI.
Controllare l’assistente è un modo naturale per assicurare accesso a propri servizi consolidando la posizione di intermediatore che Google ha oggi non solo nell’informazione ma anche in alcune categorie di servizi. Non è un caso che si rumoreggi mosse analoghe sia da Apple che da Amazon, entrambi interessati a veicolare servizi e supporti e a non perdere il treno di un’interazione più naturale con l’AI consentendo di ordinare servizi in modo mediato e molto più elaborato di quanto sia possibile oggi con Siri e Alexa.
OpenAI: un focus sulla Artificial General Intelligence
OpenAI, sebbene stia cercando di evolvere da una compagnia di ricerca in una compagnia di prodotto, sembra mantenere il focus sullo sviluppo di una cosiddetta AGI (Artificial General Intelligence) che sia sicura per l’umanità. L’assenza di altri business da promuovere le consente di focalizzarsi sul problema, anche se sembra che fatichi a monetizzare davvero i propri sforzi, e anche l’annuncio di aprire a funzioni specifiche anche agli utenti non premium potrebbe essere letto anche come la necessità di assicurarsi di trattenere i propri utenti sempre più tentati da altri modelli come Claude, Mistral ecc. Non bisogna però dimenticare che il principale stakeholder di OpenAI resta Microsoft che basa i propri servizi sui suoi modelli ed era pronta ad assumere tutti i dipendenti durante la crisi di novembre scorso con il licenziamento temporaneo di Sam Altman.
Il modello dei GPTs come alternativa aperta
È importante osservare anche che il modello dei GPTs potrebbe rappresentare un’alternativa più aperta ad un mercato di servizi. Già oggi è possibile organizzare un viaggio o accedere ad altri servizi utilizzando GPTs sviluppati da terze parti. In questo senso il GPTs store ricorda molto l’equivalente store a cui ci ha abituati Apple nel mondo mobile, e OpenAI si potrebbe candidare come broker senza avere una sorta di lock-in in cui usi un servizio solo perché non hai alternative nel tuo assistente preferito. È un po’ quello che personalmente mi frena dal fare acquisti utilizzando Alexa.
I GPTs potrebbero poi rappresentare un nuovo modello di monetizzazione per OpenAI: chi mette a disposizione un servizio potrebbe pagare l’uso contribuendo alla definizione di un modello di business sostenibile per la compagnia.
Quale futuro per l’AI generativa?
Personalmente l’impressione che ho avuto dai due eventi è che Google sia nel classico quadrante in cui sente il bisogno di flettere i muscoli e dimostrare la pervasività del proprio modello. OpenAI per contro sembra aver più chiara la direzione, investendo in modo oculato le proprie risorse nell’avanzamento dell’interazione di uomo e intelligenza artificiale, e sicuramente l’assenza di vincoli di business aiuta la startup ad essere più focalizzata.
Di tutti gli annunci a cui ho assistito quello che rimane è la domanda: ma quando saranno disponibili quanto funzioneranno come le demo? Il modello di generazione vocale di OpenAI e la capacità di interrompere in modo che l’interruzione sia “significativa” per l’AI mi ha colpito molto, ma fino a quando non sarà possibile provarlo è difficile dire quanto possa essere innovativa.
L’interazione con camera e video mi sembra invece più da “wow” effect, e non dobbiamo scordarci che sia l’AI pin che il Rabbit R1 hanno deluso le aspettative al banco di prova. Io uso ogni tanto l’elaborazione delle foto, ma se dovessi dire è per usi verticali, e spesso come OCR più che per chiedere come alzare il sellino della mia bicicletta.
Conclusioni
In questo panorama ritengo che si senta il bisogno di una “memoria” di questi assistenti, OpenAI ne sperimenta una a partire da febbraio, Google ne ha accennato. Certamente un assistente che mi conosce sarà più utile, ma si riapre il problema di capire quanto di me una big corporation americana abbia diritto di sapere, e ormai a tecnologo salvatore del mondo sembra sempre più difficile credere.