Finalmente Google ha sostituito Bard con Gemini ed è possibile provare la versione Ultra del modello LLM Gemini di Google, modello che in accordo ad alcuni benchmark mostra performance paragonabili a GPT-4 (superiori secondo Google, paragonabili secondo Microsoft ma utilizzando tecniche specifiche di prompt engineering).
Ma come si confrontano davvero due piattaforme a pagamento con un costo mensile paragonabile?
Cerchiamo di capire le differenze tra i due sistemi di chat, sia prendendo in considerazione i modelli AI usati che le funzionalità che offrono.
Gemini e Gemini Advanced
Come accade nel caso di OpenAI con ChatGPT anche Google offre Gemini, la versione gratuita del servizio basata sul modello Gemini Pro 1.0, considerato equivalente a GPT-3.5, e Gemini Advanced, versione a pagamento basata sul modello Gemini Ultra 1.0 paragonabile a GPT-4.
Chi vuole testare il livello avanzato del sistema può avere due mesi di abbonamento gratis. Questo livello funziona con Gmail e Google Docs come fa Microsoft Copilot 365, ma per ora solo con account Google personali, non con quelli aziendali.
L’interfaccia
L’interfaccia di Gemini è molto asciutta e chiaramente ispirata a quella di ChatGPT.
Il modello arricchisce la propria conoscenza con l’ausilio del Web come testimonia la seguente domanda:
Citazione delle fonti
Il processo di citazione delle fonti non è ancora soddisfacente come avviene in ChatGPT o Copilot, ma l’opzione di verificare la risposta cliccando la “G” di Google consente di annotare le affermazioni con informazioni trovate nel Web
Come capire i risultati
Se si chiede “come capire i risultati” si ottiene il seguente popup esplicativo
La verifica è quindi ex-post, cercando nell’indice di Google riscontro alle affermazioni fatte, prevedendo che i risultati si possano discostare dalla risposta data. Nell’annotazione delle fonti durante la generazione invece sono collegate le pagine da cui sono state prelevate le informazioni.
L’analisi delle immagini
Gemini supporta l’analisi delle immagini, ho provato a postare varie immagini per testarne l’abilità di analisi, ad esempio:
Se la comprensione in generale c’è quando si analizzano i dettagli è evidente come la qualità del riconoscimento non sia elevatissima:
L’AI ha scambiato il display di un RaspberryPI per una finestra ed ha visto un MacBook Pro che non c’era (il caricabatterie poi è del Surface di Microsoft).
Attualmente, nonostante si sa che il modello Gemini sia in grado di farlo, la versione corrente del sistema non è in grado di generare immagini:
Confronto con ChatGPT
Sebbene i benchmark siano poco soddisfacenti per catturare la “sensazione” di come si comporti il modello, dai test effettuati Gemini Ultra si comporta in modo simile a GPT 4 offrendo risposte veloci e articolate. Anche quando si forniscono istruzioni più complesse il modello, contrariamente a Bard, le segue adattando il comportamento e il lessico.
GPT Vision sembra decisamente superiore a Gemini nel riconoscere le immagini:
Come si può notare il Raspberry PI è stato identificato correttamente, così come l’alimentatore non è stato confuso con quello di un Mac. Anche l’ipotesi è decisamente più ragionevole:
In effetti la foto risale a quando stavo testando vmware Esxi sul Raspberry PI.
Non è l’unico caso in cui l’analisi di immagini di Gemini si sia rilevata meno precisa ed efficace di GPT vision.
Sulla strada giusta ma…
Quello che colpisce di Gemini Advanced non sono quindi le capacità, si tratta sicuramente di una AI confrontabile con GPT-4, ma la mancanza di numerose funzioni a cui gli utilizzatori di GPT Plus sono abituati. L’assenza della generazione di immagini si fa sentire, così come la mancanza di plugin o dell’equivalente dei GPTs con la loro capacità di usare conoscenza esterna, sia essa ottenuta da documenti o invocando funzioni esterne.
Si tratta di funzioni essenziali nell’esperienza d’uso di GPT e non riesco ad immaginare un uso dell’AI che prescinda da risorse esterne.
Anche la funzione speech to text di OpenAI sembra molto più evoluta di quella di Google, ho provato un’interazione che con la app di GPT funziona bene “sei un traduttore, quando senti parlare in italiano traduci in inglese e viceversa” è sufficiente per ottenere un interprete decente. Nel test il modello si è incartato senza eseguire il modello.
Conclusioni
I modelli LLM Gemini di Google sono sicuramente interessanti, e le loro prestazioni sembrano finalmente aver raggiunto una maturità per poter essere paragonati a quelli di OpenAI. Si vede la mancanza dell’ecosistema che OpenAI ha sviluppato nel corso dell’ultimo anno, e sicuramente il costo del servizio paragonabile a quello di ChatGPT Plus offre decisamente meno funzioni e integrazioni.
Alcune funzioni, come ad esempio quella delle fonti, sembrano meno efficaci della controparte, ma sono sicuro che Big G saprà avvicinarsi introducendo strumenti come le funzioni, anche se non è chiaro in quanto tempo. Credo che sia positivo vedere un competitor reale entrare nell’arena, la competizione fa bene a tutti, e finalmente c’è qualcuno che possa aspirare a competere con OpenAI. Vedremo come questo cambiamento contribuirà allo sviluppo di questi sistemi in un anno in cui cominceremo ad apprezzarne l’uso in produzione piuttosto che in test.