Sono ormai mesi che viviamo di annunci relativi all’intelligenza artificiale generativa e diventa sempre più difficile riconoscere la realtà dal “sogno”.
Ossia distinguere tra quello che viene annunciato per un futuro indefinito e ciò che è effettivamente disponibile per l’uso già ora.
Ma è un’esigenza chiara, al fine di testare una particolare funzione oppure per la realizzazione di veri e propri sistemi di produzione. A questo si aggiunge che alcune funzioni vengono rilasciate solo in aree geografiche specifiche, creando aspettative che possono essere deluse, è il caso ad esempio dei nuovi contesti annunciati per ChatGPT che non sono ancora disponibili in UK e in Europa ma disponibili nel resto del mondo.
Prendiamo in considerazione gli annunci principali e cerchiamo di fare il punto sullo stato dell’effettivo rilascio e delle informazioni disponibili fino ad ora con due esempi rilevanti: l’interazione multimodale nei large language models e l’integrazione dell’IA all’interno degli strumenti di produttività.
GPT-4 e l’interazione multimodale
L’annuncio
L’annuncio di GPT-4 ha destato molto scalpore, così come le demo che mostravano funzioni straordinarie come, ad esempio, l’analisi di immagini capace anche di riconoscere meme ed effettuare considerazioni relative al loro contenuto. Sembrava una funzione capace di aprire i Large Language Models (LLM) ad input ed output che non si limitavano al solo testo, con la promessa di usare il testo per manipolare oggetti non testuali.
Lo stato dell’arte
Contrariamente alle attese OpenAI si è concentrata sul rilascio di altre feature di GPT-4 come, ad esempio, i plugins, il modulo Web browser (per ora temporaneamente sospeso), le funzioni, e il modello code interpreter. Sono tutte funzioni importanti ma non credo di essere l’unico ad aspettare di provare le demo come disegnare uno schizzo di un sito Web per ottenerne una versione funzionante.
È sicuramente da segnalare un primo passo in questa direzione compiuto da Microsoft con Bing chat che sembra aver rilasciato la funzione di analisi di immagini basata su GPT-4 e i risultati sono effettivamente sorprendenti. Nel prompt di Bing chat è apparsa la funzione di aggiunta di un’immagine (sia come URL che caricata dl proprio dispositivo).
Finalmente ho potuto testare alcuni degli esempi dell’articolo del 14 marzo che annunciava GPT-4 ottenendo il risultato atteso:
Data la natura di Bing chat è necessario prestare attenzione al prompt che si formula poiché le istruzioni di GPT-4 tendono a generare un’interrogazione al motore di ricerca e non limitarsi all’uso del modello.
È interessante anche notare il commento “La sfocatura della privacy nasconde i volti dalla chat di Bing” che lascia intendere che per evitare questioni di privacy l’immagine viene prima filtrata per nascondere i volti e poi passata all’intelligenza artificiale. In effetti alcuni rumors indicano la privacy come un elemento centrale nel ritardo del rilascio della funzione multimodale da parte di OpenAI.
Anche l’analisi del testo sembra funzionare molto bene:
Si tratta di una tecnologia con potenzialità enormi nell’accessibilità visto che le descrizioni ottenute dalle immagini sono decisamente impressionanti:
Il rilascio della tecnologia annunciata è quindi avvenuto in forma ridotta solo quattro mesi dopo l’annuncio.
Integrazione negli strumenti di produttività on-line
L’annuncio
Sempre a marzo Microsoft ha annunciato Copilot, l’integrazione di GPT-4 all’interno di Office 365, non credo di essere l’unico a sognare di caricare un documento Word in PowerPoint per ottenere una prima presentazione. Allo stesso tempo Google ha annunciato una funzione analoga per Google Docs basata su PaLM-2 il modello che è alla base di Google Bard recentemente rilasciato in Italia.
Lo stato dell’arte
Microsoft si è limitata ad annunciare l’accesso in anteprima alla funzione Copilot, e pochi giorni fa ha anche aggiunto che il costo previsto per ottenere la funzione su Microsoft 365 sarà di 30$/mese. È curioso come il solo annuncio sia valso al colosso di Redmond un incremento della capitalizzazione di 154 miliardi di $. Restiamo in attesa che l’annuncio si traduca in una tecnologia reale giocando con la versione Enterprise di Bing chat e della Bing bar che promettono un uso rispettoso della privacy delle tecnologie rilasciate per gli utenti consumer: il servizio enterprise non memorizzerà i dati passati al modello né li userà per addestramento.
Anche Google si è limitata ad annunciare l’integrazione della tecnologia i Google Workspaces senza però dare seguito ad oggi. Sicuramente è consolante che Google Bard parli italiano lasciando intravedere una disponibilità anche nel nostro pase dell’integrazione.
Rilasci selettivi
Anche quando le tecnologie vengono rilasciate, spesso a distanza di mesi dall’annuncio, capita spesso che siano limitate a certi paesi. Non è un caso che, anche grazie al blocco di marzo di ChatGPT nel nostro paese, molti utenti abbiano imparato a configurare clienti VPN per poter provare in anteprima servizi altrimenti indisponibili. È il caso di Google Bard che è stato rilasciato in Italia solo nel mese di luglio, e comunque con una user experience ridotta rispetto a quella americana dove è già possibile caricare immagini che saranno analizzate dal servizio Google Lenses (che già faceva uso di tecniche AI ma che sembra meno futuristico dell’analisi effettuata da Bing chat con GPT-4).
Diventa sempre più difficile quindi capire quali strumenti siano effettivamente disponibili nel nostro paese, contribuendo a generare confusione e aspettative che come abbiamo visto possono fruttare centinaia di miliardi di dollari in borsa.
Conclusioni
Temo che dovremo abituarci a questa confusione e ad annunci che non vedranno immediata applicazione negli strumenti disponibili. Ma come si può osservare le tecnologie vengono effettivamente rilasciate, magari ritirate (temporaneamente o definitivamente) come nel caso della variante Web search di ChatGPT, e anche molto spedite in confronto ad annunci del passato. E in alcuni casi i rilasci sono immediati, come la disponibilità del modello LLaMa-2 annunciato da Meta e Microsoft e immediatamente scaricabile ed utilizzabile per usi commerciali.
Ci vorrà un po’ di tempo perché questo flusso continuo di annunci si sedimenti, e solo allora avremo contezza di quali player resteranno. Per ora accontentiamoci di sperimentare tutte le novità per capirne potenziali applicazioni nelle nostre vite, e con un po’ di fantasia molte cose sono già possibili grazie al sempre verde “copia e incolla” che ci consente di trasferire informazioni dalle varie chat ai nostri strumenti di produttività.