L’IA di Meta, Voicebox, è un nuovo modello generativo text-to-speech che promette di essere l’equivalente di ChatGPT e di Dall-E per il parlato; si tratta del primo modello di AI generativa pensato per la creazione di clip sonore ma anche come supporto per persone ipovedenti e digital creator.
Al momento è ancora in una fase sperimentale da mettere a punto, il comunicato dell’azienda sviluppatrice ha però già rivelato quelli che saranno il funzionamento e le potenzialità del modello.
Cos’è Voicebox
Voicebox è una sorta di Chatbot per la parola, che converte le suggestioni ricevute in forma testuale dagli utenti in un output audio; è stato “allenato” usando ben 50.000 ore di audio non filtrato, utilizzando delle trascrizioni e delle voci registrate provenienti da una lunga serie di audiolibri di pubblico dominio tradotti in inglese, francese, spagnolo, tedesco, portoghese e polacco, («text-guided speech infilling»). Un dataset così ampio e diversificato permette al bot di generare un parlato molto simile a una conversazione.
Secondo i ricercatori, “i risultati mostrano che il modello di riconoscimento del parlato addestrato sugli audio generati sinteticamente da Voicebox è tanto accurato quanto i modelli addestrati sul parlato di persone reali”. La percentuale di errori di Voicebox dovrebbe essere pari all’1%, contro quella compresa tra il 45 e il 70% dei principali modelli text-to-speech non basati sull’IA.
La tecnica “Flow Matching”
La tecnica di Meta si chiama «Flow Matching», ovvero Voicebox ha imparato da dati vocali diversi, senza che tali variazioni fossero state etichettate; fa riferimento alle probabilità di contesto con le quali sarebbero ripetute frasi ed espressioni, comparandole, con risultati molto incoraggianti e margini di errore ridotti. Si tratta di un procedimento di machine learning che per il momento è in grado di elaborare fino a sei lingue diverse (inglese, francese, spagnolo, tedesco, polacco e portoghese).
Voicebox supera l’attuale modello inglese VALL-E, allo stato dell’arte, sia in termini di intelligibilità (5,9% contro 1,9% di errori di parola) che di somiglianza audio (0,580 contro 0,681), oltre a essere 20 volte più veloce. Per il trasferimento di stile tra lingue diverse, Voicebox supera YourTTS riducendo il tasso medio di errore di parola dal 10,9% al 5,2% e migliorando la somiglianza audio da 0,335 a 0,481.
Su questo fronte la sua adattabilità istantanea alla lingua utilizzata permetterebbe a Voicebox di fungere anche come interprete, attraverso una traduzione in tempo reale.
Meta definisce Voicebox come un “modello linguistico non-autoregressivo e ritmato che è stato addestrato per produrre il parlato, dato un contesto audiofonico e un testo di base”.
Cosa sa fare Voicebox
Vediamo cosa sa fare Voicebox:
- Sintesi text-to-speech nel contesto: utilizzando un campione audio di soli due secondi, Voicebox è in grado di adattarsi allo stile audio e di utilizzarlo per la generazione di testo in voce;
- Editing del parlato e riduzione del rumore;
- Denoising: grazie all’apprendimento in contesto, Voicebox è in grado di generare il parlato per modificare senza problemi i segmenti delle registrazioni audio. È in grado di ricreare una porzione di discorso interrotta dal rumore o di sostituire le parole pronunciate in modo errato senza dover registrare nuovamente un intero discorso. Ad esempio, è possibile identificare un segmento di un discorso interrotto dall’abbaiare di un cane, ritagliarlo e chiedere a Voicebox di rigenerare quel segmento, come una gomma da cancellare per l’editing audio;
- Trasferimento dello stile da una lingua all’altra: quando si riceve un campione del discorso di qualcuno e un brano di testo in inglese, francese, tedesco, spagnolo, polacco o portoghese, Voicebox può produrre una lettura del testo in una qualsiasi di queste lingue, anche se il campione del discorso e il testo sono in lingue diverse. Questa capacità potrebbe essere utilizzata in futuro per aiutare le persone a comunicare in modo naturale e autentico anche se non parlano la stessa lingua;
- Campionamento di discorsi diversi: avendo imparato da dati diversi, Voicebox può generare un parlato più rappresentativo di come le persone parlano nel mondo reale e nelle sei lingue sopra elencate;
- Sa editare video e rimpiazzare le parole pronunciate scorrettamente da attori, doppiatori e da chiunque si trovi davanti ad un microfono;
- Potrà creare dei discorsi, completarli e aggiungere dettagli a questi ultimi, almeno in presenza di un contesto sufficientemente ampio.
- Può produrre clip audio, anche di qualità molto elevata, modificando delle registrazioni reali, rimuovendo i disturbi sonori o dando molteplici soluzioni e usi a una voce;
- Può essere applicato agli strumenti tecnologici domestici: in futuro secondo gli sviluppatori, permetterà di modificare agevolmente anche l’audio di un video.
Utile a ipovedenti e digital creator
Il nuovo strumento può agevolare il lavoro dei digital content creator, anche per fornire un servizio utile alle persone cieche e ipovedenti, che potrebbero in tal modo ascoltare i messaggi scritti da amici, parenti e colleghi di lavoro sulle piattaforme, sui social e nelle chat dei propri dispositivi elettronici. Potrebbe consentire alle persone ipovedenti di ascoltare i messaggi scritti dagli amici letti dall’IA con la loro voce, dare ai creatori nuovi strumenti per creare e modificare facilmente le tracce audio dei video e molto altro ancora.
In futuro, modelli di intelligenza artificiale generativa multiuso come Voicebox potrebbero dare voci naturali agli assistenti virtuali e ai personaggi non giocanti nel metaverso.
Conclusioni
Al momento la nuova chatbox è stata resa nota sul mercato attraverso campioni audio e un documento di ricerca che illustra l’approccio e i risultati ottenuti. Sul blog ufficiale della società è possibile vedere il filmato che spiega il funzionamento di Voicebox, in inglese. In effetti, prima che il chatbot di Meta raggiunga i mercati e eventualmente ampli le lingue usate, passerà del tempo.