intelligenza artificiale

Voicebox: cos’è e cosa fa il “chatbot per la parola” di Meta



Indirizzo copiato

Voicebox è una sorta di Chatbot per la parola, che converte le suggestioni ricevute in forma testuale dagli utenti in file audio. Ecco come ha “imparato a parlare” e i possibili utilizzi

Pubblicato il 25 lug 2023

Carmelina Maurizio

Università degli Studi di Torino



Customer,Experience,Concept.,Soft,Focus,Of,Happy,Client,Standing,At

L’IA di Meta, Voicebox, è un nuovo modello generativo text-to-speech che promette di essere l’equivalente di ChatGPT e di Dall-E per il parlato; si tratta del primo modello di AI generativa pensato per la creazione di clip sonore ma anche come supporto per persone ipovedenti e digital creator.

VoiceBox: Meta's NEW AI Clones Voices with only 2 Seconds of Audio!

Al momento è ancora in una fase sperimentale da mettere a punto, il comunicato dell’azienda sviluppatrice ha però già rivelato quelli che saranno il funzionamento e le potenzialità del modello.

Cos’è Voicebox

Voicebox è una sorta di Chatbot per la parola, che converte le suggestioni ricevute in forma testuale dagli utenti in un output audio; è stato “allenato” usando ben 50.000 ore di audio non filtrato, utilizzando delle trascrizioni e delle voci registrate provenienti da una lunga serie di audiolibri di pubblico dominio tradotti in inglese, francese, spagnolo, tedesco, portoghese e polacco, («text-guided speech infilling»). Un dataset così ampio e diversificato permette al bot di generare un parlato molto simile a una conversazione.

Secondo i ricercatori, “i risultati mostrano che il modello di riconoscimento del parlato addestrato sugli audio generati sinteticamente da Voicebox è tanto accurato quanto i modelli addestrati sul parlato di persone reali”. La percentuale di errori di Voicebox dovrebbe essere pari all’1%, contro quella compresa tra il 45 e il 70% dei principali modelli text-to-speech non basati sull’IA.

La tecnica “Flow Matching”

La tecnica di Meta si chiama «Flow Matching», ovvero Voicebox ha imparato da dati vocali diversi, senza che tali variazioni fossero state etichettate; fa riferimento alle probabilità di contesto con le quali sarebbero ripetute frasi ed espressioni, comparandole, con risultati molto incoraggianti e margini di errore ridotti. Si tratta di un procedimento di machine learning che per il momento è in grado di elaborare fino a sei lingue diverse (inglese, francese, spagnolo, tedesco, polacco e portoghese).

Voicebox supera l’attuale modello inglese VALL-E, allo stato dell’arte, sia in termini di intelligibilità (5,9% contro 1,9% di errori di parola) che di somiglianza audio (0,580 contro 0,681), oltre a essere 20 volte più veloce. Per il trasferimento di stile tra lingue diverse, Voicebox supera YourTTS riducendo il tasso medio di errore di parola dal 10,9% al 5,2% e migliorando la somiglianza audio da 0,335 a 0,481.

Su questo fronte la sua adattabilità istantanea alla lingua utilizzata permetterebbe a Voicebox di fungere anche come interprete, attraverso una traduzione in tempo reale.

Meta definisce Voicebox come un “modello linguistico non-autoregressivo e ritmato che è stato addestrato per produrre il parlato, dato un contesto audiofonico e un testo di base”.

Cosa sa fare Voicebox

Vediamo cosa sa fare Voicebox:

  • Sintesi text-to-speech nel contesto: utilizzando un campione audio di soli due secondi, Voicebox è in grado di adattarsi allo stile audio e di utilizzarlo per la generazione di testo in voce;
  • Editing del parlato e riduzione del rumore;
  • Denoising: grazie all’apprendimento in contesto, Voicebox è in grado di generare il parlato per modificare senza problemi i segmenti delle registrazioni audio. È in grado di ricreare una porzione di discorso interrotta dal rumore o di sostituire le parole pronunciate in modo errato senza dover registrare nuovamente un intero discorso. Ad esempio, è possibile identificare un segmento di un discorso interrotto dall’abbaiare di un cane, ritagliarlo e chiedere a Voicebox di rigenerare quel segmento, come una gomma da cancellare per l’editing audio;
  • Trasferimento dello stile da una lingua all’altra: quando si riceve un campione del discorso di qualcuno e un brano di testo in inglese, francese, tedesco, spagnolo, polacco o portoghese, Voicebox può produrre una lettura del testo in una qualsiasi di queste lingue, anche se il campione del discorso e il testo sono in lingue diverse. Questa capacità potrebbe essere utilizzata in futuro per aiutare le persone a comunicare in modo naturale e autentico anche se non parlano la stessa lingua;
  • Campionamento di discorsi diversi: avendo imparato da dati diversi, Voicebox può generare un parlato più rappresentativo di come le persone parlano nel mondo reale e nelle sei lingue sopra elencate;
  • Sa editare video e rimpiazzare le parole pronunciate scorrettamente da attori, doppiatori e da chiunque si trovi davanti ad un microfono;
  • Potrà creare dei discorsi, completarli e aggiungere dettagli a questi ultimi, almeno in presenza di un contesto sufficientemente ampio.
  • Può produrre clip audio, anche di qualità molto elevata, modificando delle registrazioni reali, rimuovendo i disturbi sonori o dando molteplici soluzioni e usi a una voce;
  • Può essere applicato agli strumenti tecnologici domestici: in futuro secondo gli sviluppatori, permetterà di modificare agevolmente anche l’audio di un video.

Utile a ipovedenti e digital creator

Il nuovo strumento può agevolare il lavoro dei digital content creator, anche per fornire un servizio utile alle persone cieche e ipovedenti, che potrebbero in tal modo ascoltare i messaggi scritti da amici, parenti e colleghi di lavoro sulle piattaforme, sui social e nelle chat dei propri dispositivi elettronici. Potrebbe consentire alle persone ipovedenti di ascoltare i messaggi scritti dagli amici letti dall’IA con la loro voce, dare ai creatori nuovi strumenti per creare e modificare facilmente le tracce audio dei video e molto altro ancora.

In futuro, modelli di intelligenza artificiale generativa multiuso come Voicebox potrebbero dare voci naturali agli assistenti virtuali e ai personaggi non giocanti nel metaverso.

Conclusioni

Al momento la nuova chatbox è stata resa nota sul mercato attraverso campioni audio e un documento di ricerca che illustra l’approccio e i risultati ottenuti. Sul blog ufficiale della società è possibile vedere il filmato che spiega il funzionamento di Voicebox, in inglese. In effetti, prima che il chatbot di Meta raggiunga i mercati e eventualmente ampli le lingue usate, passerà del tempo.

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Social
Analisi
Video
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati