Le voci sintetiche sono in circolazione già da molti anni: ad esempio nei videogame, già Wolfenstein 3d del 1981 utilizzava la voce in alcune fasi di gioco. Da allora la presenza di voci sintetiche negli strumenti informatici non ha fatto che aumentare, ma in tutti i casi, includendo anche le voci di Siri ed Alexa, non si tratta che di sistemi capaci di emettere una sequenza di parole preregistrate, con dei risultati a volte poco realistici. Aggiungere naturalezza richiede un lavoro manuale laborioso per “accordare” il timbro, l’intensità e l’intonazione.
Anche in questo ambito, Il deep learning ha introdotto una decisa innovazione, permettendo di automatizzare il processo manuale necessario a configurare l’esatto ritmo, pronuncia o intonazione del discorso generato. Con l’IA è possibile utilizzare alcune ore di una voce registrata per il training di un algoritmo, insegnando così tali schemi all’algoritmo stesso, che poi li applicherà per “leggere” un testo con la giusta intonazione e un risultato più naturale.
L’intelligenza artificiale per la ripresa dell’Italia: ecco sfide e opportunità
AI e voce “umana”: le opportunità di business
Così se non molto tempo fa l’imitazione delle voci era parte del fenomeno noto come deepfake, e non godeva di una buona reputazione a causa della preoccupazione per il possibile uso nelle chiamate truffaldine[1], il miglioramento della qualità ottenibile ha nel frattempo acceso l’interesse di un numero crescente di aziende per le opportunità di utilizzo legittimo che offre.
I progressi legati all’uso di algoritmi di deep learning consentono infatti di replicare automaticamente molte delle sottigliezze del linguaggio umano: le voci sintetiche introducono pause e respirano nei momenti giusti, possono cambiare l’intonazione o l’emozione. È ancora possibile distinguerle da vere voci umane se parlano troppo a lungo, ma in brevi clip audio sono spesso indistinguibili dagli umani.
In aggiunta alla somiglianza con le vere voci umane, le voci sintetiche prodotte dai sistemi di IA offrono numerosi vantaggi legati alla loro economicità, scalabilità e facilità di impiego. Infatti, a differenza della registrazione di un doppiatore umano, i discorsi pronunciati dalle voci sintetiche possono essere aggiornati rapidamente, anche in tempo reale, aprendo quindi molti nuovi scenari di utilizzo: ad esempio per personalizzare la pubblicità, realizzare contenuti interattivi, creare contenuti per l’apprendimento.
Le voci artificiali di WellSaid Lab
WellSaid Labs, una startup con sede a Seattle, nata dall’organizzazione no profit di ricerca Allen Institute of Artificial Intelligence, è una delle aziende che ha recentemente iniziato ad offrire prodotti basati sull’intelligenza artificiale per la generazione di voci artificiali, principalmente da utilizzare in contenuti video di e-learning aziendali. Altre startup offrono prodotti per realizzare voci di assistenti digitali, operatori di call center e personaggi dei videogiochi.
Ognuna di queste realtà basa i propri prodotti sulla voce di veri doppiatori, replicata usando sistemi di IA. Le aziende produttrici concedono ai propri clienti la licenza di utilizzo di queste voci e del software associato per generare le frasi richieste, il quale utilizza il software di generazione vocale per trasformare un brano di testo in una clip audio nitida e apparentemente naturale. Nel corso degli anni la ricerca ha permesso di evolvere questa idea di base nella costruzione di motori vocali sempre più sofisticati. Ad esempio, il modello prodotto da WellSaid Labs utilizza due sistemi di deep learning distinti: il primo genera, a partire da un brano di testo, una prima versione della frase parlata, completa di accento, intonazione e timbro. Il secondo aggiunge i dettagli, tra cui il respiro e il modo in cui la voce risuona nell’ambiente in cui viene pronunciata.
I sistemi di Sonantic
I vantaggi per gli utilizzatori sono molteplici. Ad esempio sul sito web di Sonantic.io, azienda che sviluppa sistemi per realizzare le voci dei personaggi dei videogiochi, in un video gli sviluppatori di Obsidian (Fallout, Star Wars Knights) spiegano come l’utilizzo del software di Sonantic ha permesso di rendere molto più efficiente il processo di sviluppo dei dialoghi e di aumentare la qualità del prodotto finale, grazie alla possibilità di testare le scene del gioco direttamente con voci realistiche, invece di limitarsi alle sole frasi scritte, poi recitate da attori umani solo nell’ultimissima fase di realizzazione del videogioco. E così, benché ancora oggi nella maggioranza dei casi le voci artificiali vengano sostituite da voci di veri attori e doppiatori in post-produzione, cominciano a verificarsi casi in cui le case produttrici di videogiochi lasciano le voci sintetiche anche nel videogioco finito, almeno per quei personaggi (digitali) che hanno solo poche battute.
Voci artificiali, ma con personalità
Le voci generate dall’intelligenza artificiale stanno diventando popolari tra le aziende che hanno una forte interazione con la clientela, perché permettono loro di presentarsi con una voce credibile, coerente e in linea col messaggio aziendale. Con il costante incremento di sistemi che interagiscono con le persone mediante la voce – altoparlanti intelligenti, agenti automatizzati per il servizio clienti e assistenti digitali incorporati in auto e dispositivi intelligenti – si è stimato che le aziende possano arrivare a dover produrre fino a cento ore di audio ogni mese. Ma al crescere dell’importanza che, nell’interazione con i propri clienti, vanno rivestendo le voci artificiali, le aziende non intendono più affidarsi a voci robotiche, di bassa qualità, ma vedono l’opportunità di usare una o più voci personalizzate e con una «personalità», che possa costituire uno degli elementi distintivi del brand aziendale, al pari del marchio, dei colori e di altre caratteristiche distintive.
Questa opportunità di mercato costituisce la scommessa di VocalID, che promette di generare voci personalizzate che corrispondono all’identità del marchio aziendale. «Le aziende hanno pensato ai loro colori. Hanno pensato ai loro font. Ora devono iniziare a pensare anche al modo in cui suona la loro voce» dice Rupal Patel, la fondatrice di VocalID.
Sempre nell’ambito dei servizi per l’immagine aziendale, un interessante esperimento è portato avanti da Resemble.Ai, che offre sistemi per creare voci sintetiche e sintetizzare voci in più lingue differenti. Fra le differenti soluzioni offerte c’è l’integrazione tra GTP-3 e il sistema di generazione vocale, che permette, ad esempio, di creare brevi testi vocali partendo dal solo nome di un prodotto e da una sua breve descrizione: GTP-3 genera il testo, mentre il sistema di sintesi vocale di Resemble.AI lo trasforma in una clip audio con la voce desiderata[2].
Come si produce una voce sintetica e quali sono i rischi
Tuttavia, produrre una voce sintetica convincente richiede molto di più che premere un semplice pulsante. Parte di ciò che rende una voce “umana” è la sua variabilità, espressività e capacità di fornire le stesse frasi con stili completamente diversi a seconda del contesto.
Catturare queste sfumature significa trovare i doppiatori giusti per fornire i dati di training più appropriati e perfezionare i modelli di deep learning. WellSaid afferma che il processo richiede almeno un’ora o due di audio “umano” registrato e alcune settimane di lavoro per sviluppare una replica sintetica dal suono realistico.
Ma il crescente sviluppo di voci sintetiche iperrealiste non è priva di conseguenze: i doppiatori umani, in particolare, si chiedono cosa questo possa significare per i loro mezzi di sostentamento. Al momento però la loro sostituzione non è all’ordine del giorno, anzi per alcuni di loro questa nuova tecnologia ha rappresentato un miglioramento: quando un’azienda utilizza la voce di un doppiatore come base per generare nuovi dialoghi, di solito paga al proprietario umano della voce una royalty, così come fatto, ad esempio, nei prodotti di design. Questo significa che in caso di successo di vendita della voce realizzata a partire della propria, il doppiatore riceve dei pagamenti legati al volume d’affari generato.
Le limitazioni
Inoltre, ci sono ancora importanti limitazioni a quello che le voci generate dall’IA possono fare. È ad esempio ancora difficile mantenere il realismo della voce sui lunghi periodi di tempo che sono necessari per la realizzazione di un audiolibro o di un podcast. È limitata, poi, la possibilità di controllare le caratteristiche della voce, come ad esempio fa un regista che dirige un artista umano. “Siamo ancora agli albori del discorso sintetico”, afferma Zohaib Ahmed, fondatore e CEO di Resemble.ai, secondo il quale l’attuale stato del settore è lo stesso dei giorni in cui la grafica CGI era usata principalmente per ritoccare scene create con tecniche tradizionali di effetti speciali, piuttosto che per creare direttamente interi scenari artificiali.
In altre parole, i doppiatori umani non sono ancora destinati a sparire. I progetti espressivi, creativi e di lunga durata sono ancora appannaggio esclusivo dagli esseri umani. E per ogni voce sintetica prodotta da queste aziende innovative, è comunque necessario un doppiatore umano per realizzare l’insieme dei dati (vocali) di apprendimento dell’IA.
Per il momento quindi la principale preoccupazione degli attori non è quella di essere sostituiti dall’automazione, quanto piuttosto quella di essere ingiustamente compensati o di perdere il controllo sulle loro voci, che costituiscono il loro marchio e la loro reputazione.
- Vincent, J., “This AI-generated Joe Rogan fake has to be heard to be believed”, The Verge, Maggio 2019 ↑
- Si veda la demo al sito https://www.resemble.ai ↑