Google ha finalmente rilasciato anche in Italia Bard, l’interfaccia che consente di utilizzare il modello LLM chiamato PaLM-2 che usa 340 miliardi di parametri (contro i 175 miliardi del modello GPT-3.5).
È un fatto significativo perché i modelli LLM che sono capaci di parlare l’italiano non sono molti ed è quindi una buona notizia che se ne aggiunga uno nuovo oltre a GPT. È naturale chiedersi come il nuovo servizio si comporta rispetto a ChatGPT e se Google ha coperto il gap rispetto a OpenAI e Microsoft nello spazio dell’intelligenza artificiale. L’assenza di metodologie di benchmarking di questi modelli lascia in parte opinabile e sicuramente non oggettivo il confronto se si esclude il mero fact-checking dove si può verificare il grado di verità di una risposta a fronte di un dato prompt.
La mia prima impressione dopo averlo usato per qualche giorno è che per ora Bard non sembra altrettanto sofisticato rispetto a GPT, soprattutto GPT-4, ma anche in alcuni casi GPT-3.5 sembra essere più sofisticato.
L’interfaccia di Google Bard
L’interfaccia di Bard è molto simile a quella di ChatGPT, le conversazioni vengono salvate e possono essere utilizzate semplicemente selezionandole.
L’interfaccia è in rapida evoluzione, nella versione inglese il 13 luglio Google ha introdotto la possibilità di caricare immagini che vengono passate al servizio Google Lens. È disponibile anche un input vocale che si limita a trascrivere nella casella di input quello che viene detto.
L’interfaccia presenta una funzione che consente di richiedere generazioni alternative:
La generazione del testo sembra più efficiente e non c’è l’effetto di generazione di testo incrementale a cui ci ha abituato ChatGPT in questi ultimi mesi.
La base di conoscenza
Ormai sappiamo tutti l’importanza di capire la conoscenza di una AI a quando risale, contrariamente a GPT Bard si limita a rispondere senza dire che le sue informazioni risalgono fino ad una certa data. Avevo dubbi relativamente ad una possibile integrazione con la search visto che stiamo parlando di Google, ma dopo poche interazioni sono facilmente riuscito a far allucinare l’AI:
La domanda che avevo posto si riferiva ad un accordo firmato il 14 luglio, ma quello che colpisce è che si fa riferimento ad un accordo siglato il 14 maggio del 2023 quando il rettore era il Prof. Riccardo Zucchi e non più il Prof. Paolo Mancarella.
Il tasto “Cerca su Google” sembra mimare la funzione di Bing chat proponendo delle ricerche da effettuare su Google, ma si limita ad effettuare la search su Google senza provare a riassumere i risultati con un riferimento a ciascuno di essi come avviene su Bing. Si tratta in effetti di una questione delicata: uno dei principali meccanismi di monetizzazione di Google è legato ai click sui risultati della ricerca, la generazione di un riassunto con i riferimenti alle sorgenti ridurrebbe inevitabilmente il numero di click fatti dagli utenti, ma questo richiederebbe una revisione di una parte del modello di business.
In conclusione sembra che anche nel caso di Bard la conoscenza sia limitata alla data dell’addestramento, che è abbastanza recente per l’italiano.
La qualità del testo generato da Bard
Anche se è difficile fare un vero e proprio confronto, e Bard è al primo rilascio, per ora sembra che l’eloquio sia decisamente meno sofisticato di quello di GPT-4. Bard tende ad essere più diretto e meno verboso di GPT-4. Un aspetto degno di nota è l’incapacità attuale di ricevere prompt che ne condizionino il registro verbale. Consideriamo questo esempio:
Onestamente all’asilo difficilmente ci si rivolge come suggerisce il Bard alla propria classe. Ben diversa è la risposta di GPT-4:
Devo dire che questa incapacità di adeguarsi al prompt sembra ad oggi essere uno dei più grandi limiti di Google Bard.
La generazione di codice
Nella generazione di programmi Google Bard si comporta in modo simile a GPT-4, ma è presto per potersi formare un’opinione accurata. Nell’analisi del codice però è evidente che c’è molta strada da fare:
GPT è decisamente più accurato nel descrivere il problema:
La generazione di contenuto
Ho provato a far generare il contenuto di una slide: è evidente che Bard non controlla ancora l’output come si vorrebbe, il risultato infatti richiederebbe un font 10pt in PowerPoint per essere visualizzato:
Nel caso di GPT la struttura si presta più a riempire una slide PowerPoint:
Anche se si cerca di far generare il prompt per una AI che genera immagini il comportamento di Bard è decisamente meno soddisfacente:
GPT invece si comporta come atteso:
Conclusioni
Ritengo che l’arrivo di Google Bard sia più che benvenuto, e disporre di più di una AI generativa in Italiano non sia che un’ottima notizia. Dai primi test sembra che Bard sia ancora meno sofisticato di GPT e in molti compiti funzioni in modo meno accurato. Vedremo nei prossimi mesi lo sviluppo di entrambi i modelli e soprattutto dell’integrazione con altre piattaforme: Google ha annunciato l’integrazione in Google Docs della tecnologia entrando in competizione con Copilot di Microsoft, vedremo solo allora il vero impatto delle due tecnologie, e anche dei modelli di pricing per poterne fruire.
Come sempre restiamo in attesa delle novità con rigoroso spirito critico.