l’anteprima

Gpt4o “voice mode” avanzato: la nostra prova

Home Industry 4.0/Innovazione in azienda

Agendadigitale.eu ha provato l’advanced voice mode di Gpt40 di OpenAi. Una chiacchierata sorprendente, in italiano. La sensazione è di essere all’alba di una trasformazione dai grandi impatti potenziali

Pubblicato il 27 ago 2024

Antonio Cisternino

Università di Pisa

Sono stato accettato nel programma alpha di OpenAI del nuovo advanced voice mode su Gpt4o annunciato il 13 maggio scorso. E così ho potuto fare questa prova, con audio in italiano.

Indice degli argomenti

La prova di Gpt4 4o advanced voice mode

La nostra prova di Gpt4o advanced voice mode

Ero curioso di capire come questa nuova modalità vocale di intelligenza artificiale si sarebbe comportata con una lingua diversa dall’inglese: i modelli di text-to-speech tendono a combinare fonemi per generare l’audio, e mi chiedevo quindi come il sistema avrebbe interpretato una lingua come l’italiano.

Ho quindi deciso di improvvisare un’intervista con l’AI cercando di porre domande che evidenziassero la dinamica temporale della conversazione e la capacità di intonare le risposte e di essere interrotta senza dover attendere che una risposta non centrata termini la lettura. Ho quindi preparato una vera e propria scaletta da intervistatore in cui prima ho fatto richieste informative sul funzionamento di questa modalità, e poi ho chiesto di recitare alcuni frammenti di poesie note in italiano per capire come questa nuova modalità di interazione si comportasse nella “recitazione” e non solo nella conversazione.

Il risultato è un’intervista di quasi quattro minuti che ho registrato in un’unica prova e senza alterare il file audio finale se non per tagliare l’inizio e la fine della registrazione vocale. Lo sottolineo proprio perché si potrebbe avere il dubbio che anche questa sia in un certo senso una “demo”.

L’accento italo-americano della conversazione, che ricorda l’italiano di Heather Parisi, non sorprende più di tanto, ma l’interazione è assolutamente naturale e sorprendente, e la velocità di risposta e le pause sono tutte entro limiti accettabili in una conversazione.

Finora ho detto che l’AI ascolta, è importante però sottolineare che mi riferisco al parlato: almeno per ora GPT non ascolta in senso “umano” del termine, se ad esempio chiediamo di ascoltare musica veniamo informati che non è capace di farlo.

Non c’è nessun modo per raccontare in un articolo scritto l’effetto che fa, non posso che raccomandare quindi l’ascolto dell’intervista.

Una valutazione

Questa nuova modalità di interazione con una AI che sarà via via rilasciata a sempre più utenti mi ha veramente sorpreso. Per qualcuno come me cresciuto con il mito di robot in film di Star Wars e assistenti come Jarvis in Ironman sembra di vivere in un film di fantascienza, non credevo che durante la mia vita avrei provato qualcosa di simile. Ma, intervista a parte, il fatto che questa modalità di interazione funzioni è testimoniato, almeno per me, dal fatto che da quando mi hanno abilitato l’anteprima tendo ad interagire più vocalmente con GPT che scrivendo sui miei dispositivi mobili.

L’accento americano della conversazione è divertente, ma immagino che non ci vorrà molto prima che i modelli possano sintetizzare fonemi per le varie lingue come è testimoniato dai numerosi modelli che traducono audio parlati in lingue differenti. L’interattività, e soprattutto la possibilità di interrompere l’interlocutore, mi hanno sorpreso e, nonostante alcune pause si siano protratte leggermente di più rispetto ad una conversazione umana, la dinamica dell’interazione è assolutamente accettabile dal punto di vista dei tempi.

Dopo poco meno di due anni dai primi segni globali dell’impatto dell’AI generativa mi trovo a commentare un’altra funzione che sarebbe stata impensabile solo pochi mesi fa. La velocità con cui tutto questo sta evolvendo è sorprendente e non si può non chiedersi come noi possiamo adattarci a questa nuova realtà. L’unica via percorribile penso che sia cercare di usare questi strumenti il più possibile, per poter crescere insieme a loro e non trovarsi in pochi anni nuovi analfabeti in un mondo di AI.

Penso che sia giunto il momento di rileggere il libro “The age of spiritual machines” in cui nel 1999 Ray Kurzweil prevedeva la singolarità e l’avvento dell’AI e a quanto pare ci stiamo allineando, ancora una volta, alle sue previsioni.

Le implicazioni dell’audio mode advanced

Da quando utilizzo questa nuova modalità sempre più spesso tendo a preferirla rispetto alla modalità scritta, ma penso che il vero cambiamento lo vedremo quando sarà resa disponibile anche l’interazione video che è stata dimostrata, perché allora sarà davvero possibile condividere, almeno in parte, il contesto in cui si sta operando, potendo porre domande o commentando quello che si vede, oltre a sentire.

Gli impatti sulla nostra vita e lavori sono potenzialmente notevoli. Si va sempre più verso quel famoso assistente universale che le big tech promettono da mesi.

E già ora è facile immaginare che una prima linea di call center possa essere sostituita nel prossimo futuro da una IA in grado di fare conversazioni naturali come questa.

Considerando che è passato un anno e mezzo da quando GPT ha acceso i fari sull’AI generativa non si può dire che il progresso non sia strabiliante. È presumibile che le interfacce vocali torneranno di moda nella speranza che queste nuove modalità di interazione rendano meno odioso parlare con le macchine.

L’interazione vocale è uno dei modi più naturali per l’interazione umana, non a caso nella fantascienza, sin dai racconti di Asimov, l’interazione con l’intelligenza artificiale si basa sull’interazione parlata. Anche se pensiamo a film di fantascienza come 2001 odissea nello spazio oppure Blade Runner troviamo nuovamente l’interazione vocale come un elemento che evoca fantascienza.

Google Gemini Live

L’importanza della naturalezza dell’interazione con il modello AI nel frattempo è stata colta anche da Google che fin dai primi passi nello sviluppo del modello Gemini si è concentrata su una multimodalità del modello che includesse anche l’audio.

Ad agosto Google ha presentato così Gemini Live, una nuova funzione avanzata del suo assistente AI, Gemini, disponibile inizialmente per gli utenti con abbonamento Gemini Advanced su dispositivi Android, come i Pixel e alcuni modelli Samsung. Questa funzionalità permette di avere conversazioni fluide e in tempo reale con l’assistente, simile a un’interazione telefonica. Gli utenti possono chiedere consigli, esplorare idee complesse o anche interrompere la risposta dell’assistente per approfondire un argomento specifico.

Un aspetto interessante di Gemini Live è la possibilità di continuare a parlare con l’assistente anche quando l’app è in background o con il telefono bloccato, offrendo una vera esperienza hands-free. Inoltre, è stata introdotta una serie di nuove voci personalizzabili con temi stellari come “Vega” e “Orion”, per rendere l’interazione ancora più naturale e su misura.

Questa tecnologia non solo migliora l’esperienza dell’assistente, ma offre anche un’integrazione profonda con altre app Google, come Keep e YouTube Music, permettendo di gestire attività quotidiane senza dover passare da un’app all’altra

Si arriva così a un’interazione più naturale anche se poi, nonostante le risposte più veloci, anche nel caso di Gemini l’interazione mancava di quella capacità conversazionale che ci aspettiamo da un interlocutore affinché una conversazione possa essere produttiva.

L’abilità di riconoscere comandi vocali e di sintetizzare voce umana è disponibile da oltre vent’anni nei PC; eppure, finora le interfacce vocali hanno stentato ad emergere e le interfacce grafiche, e solo recentemente il riconoscimento di comandi vocali da parte di assistenti come Alexa, Google, o Siri ha cominciato a prendere piede anche se tutt’ora la limitatezza del vocabolario e la necessità di utilizzare frasi specifiche ne limita ancora l’interazione.

La ribalta dell’AI generativa a partire dal 2022 ha progressivamente ridato vigore a tutte le interazioni vocali grazie al funzionamento multilingua e alla capacità di comprendere la richiesta senza gli stretti vincoli che hanno caratterizzato gli assistenti vocali che ci hanno accompagnato finora.

Come è naturale in informatica il primo approccio alla conversazione vocale è stato quello composizionale: trascrivere con modelli AI il flusso audio in testo, presentarlo come prompt ad un modello LLM e poi utilizzare un cosiddetto modello test to speech per produrre la risposta audio.

Chiunque abbia interagito con sistemi vocali realizzati secondo questo schema sa che ci sono due aspetti essenziali che impediscono un’interazione naturale nonostante il sistemi “ascolti” e “risponda” con la lingua parlata: il tempo necessario a svolgere in sequenza i tre passaggi con sistemi differenti si cumula portando ad un ritardo significativo tra l’ascolto e la generazione del testo di risposta, l’assenza di tonalità vocali che aiutino chi riceve la risposta a comprendere enfatizzando le varie parti di un discorso e l’assenza di cadenze dovute alla necessità di un interlocutore umano di respirare mentre parla.

Già durante l’annuncio di GPT-4 OpenAI aveva cominciato a sottolineare l’introduzione di un modello “multimodale” ma centrato sulla capacità di elaborare insieme testo e immagini, senza prestare troppa attenzione agli aspetti di interazione vocale. La modalità di interazione vocale dell’app ChatGPT, anche a causa della lentezza del modello GPT-4 nel rispondere, non ha mai preso piede proprio a causa della lentezza e dell’impossibilità di interrompere la lettura della risposta, un elemento decisamente fastidioso che rendeva scarsamente efficace l’interazione.

Ecco quindi che OpenAI in un anno ha lavorato a rendere più veloce il modello GPT-4 con il rilascio del modello GPT-4o ed ha rilasciato questa modalità di interazione vocale che si avvale della natura multimodale del modello, che non deve aspettare che un altro modello debba trascrivere un messaggio vocale prima di poterlo interpretare, ed ha introdotto una nuova gestione nella generazione del parlato che non si limiti a leggere il testo, ma a generare una risposta che sia vocalmente accettabile per un noi umani come se fosse parlata da un altro essere umano.

Vedere la demo di Mina a maggio è stato sicuramente impressionante, ma tutti ormai sappiamo, come ha insegnato la prima demo di Google Gemini in cui è stato accelerato un video per dare un’impressione di interattività per cui il modello non era pronto, che vi può essere un abisso tra una demo durante l’annuncio di un prodotto e il suo effettivo uso. Avere accesso alla tecnologia mi ha quindi incuriosito per verificare come il modello si comporti veramente con un uso reale.

Non credo sia una caso che anche Google abbia recentemente annunciato una nuova modalità vocale per Gemini che consenta un’interazione più naturale e che proveremo non appena sarà possibile.

@RIPRODUZIONE RISERVATA