deepfake audio

La nostra voce vivrà dopo di noi, grazie all’AI: siamo sicuri sia una cosa buona?

Assistenti vocali vecchi, nuovi e in pensione, con cui interfacciarci al web e all’internet delle cose, social network radiofonici, giochi narrati: stiamo assistendo a un ritorno all’oralità? Qual è il ruolo del machine learning? Nuovi puzzle per l’epistemologia, nuovi paradossi per le domande fondamentali della gnoseologia

Pubblicato il 24 Mag 2021

Lorenza Saettone

Filosofa specializzata in Epistemologia e Cognitivismo, PhD Student in Robotics and Intelligent Machines for Healthcare and Wellness of Persons

I nostri device comunicano con noi, sempre di più e meglio. No, non è un’allucinazione. Se Torquato Tasso sentiva il folletto che gli parlava e scombinava le carte, per noi è del tutto comune avere uno smart speaker con cui conversare. È la razionalizzazione dell’animismo e la possibilità di vivere tutti quanti una schizofrenia normalizzata. Molto presto, grazie a tecnologie già tra noi, le nostre voci potranno sopravvivere dentro Alexa potenzialmente in eterno. Ma quali sono le implicazioni?

Io, robot di fronte al Covid: tecnologia fra scienza e animismo

Nei media la voce è sempre più una scelta preferita come interfaccia fra l’utente e il sistema. Invece di alfabetizzare le masse, si preferisce risolvere l’esclusione degli analfabeti dal web rendendo superflua la capacità di scrittura?

Anche i podcast e i voice game stanno conoscendo un successo crescente. I bambini, per ridurre le ore trascorse su tablet, un tempo esacerbato dalla pandemia, diventano tra i principali fruitori di giochi narrati. Gli audio game possono essere fruiti attraverso console prive di schermi, come yoto, o attraverso piattaforme tipo Volley che si interfacciano a smartphone e smart speaker, narrando storie e proponendo giochi interattivi. Insomma, è una nuova epoca in cui la radio si sta vendicando della video star?

Indice degli argomenti

Deep fake audio

In questo ritorno alle “fireside chats” non più solo presidenziali, anche il deep learning offre il suo contributo. Le moderne tecniche di analisi e di riproduzione sintetica della voce umana sono arrivate al punto da riprodurre in maniera piuttosto fedele timbro, cadenza e intonazione delle persone dopo un periodo di apprendimento relativamente breve.

È sempre più veloce e alla portata di tutti creare deep fake audio, imitando le voci di persone reali in maniera quasi indistinguibile dall’originale. Possiamo ottenere puntate di podcast come se li avessimo direttamente pronunciati noi. Come?

Descript è un sistema di text to speech, solo che la voce con cui si traducono in oralità le frasi scritte non è un loquendo qualsiasi, bensì la nostra. È sufficiente registrare alcuni specimen della nostra voce, leggendo le frasi random che la macchina ci somministra. È da queste registrazioni, poi, che la rete apprende tono, forza, timbro, per creare un nostro doppio fake indistinguibile. Non si possono dare in pasto alla rete altri tipi di tracce vocali. Il vincolo di accettare solo le frasi che il software ci presenta, vuole essere un limite alla duplicazione di voci non nostre, per non creare problemi di testimonianza.

Descript, a partire da un documento scritto, genera immantinente il suo corrispettivo vocale. Si ottengono così due contenuti, uno per il podcast l’altro per il blog, con un solo sforzo. Eppure in questo caso il falso sarà proprio la vocalità, contrariamente a ogni psicologia del senso comune tesa ad associare la verità a ciò che è orale.

ResembleAI è un altro generatore vocale molto efficiente. La scelta delle lingue è inoltre abbastanza ampia: c’è anche l’italiano. Si può interfacciare con Alexa e altre app che includono un assistente vocale. Ogni brand può usare voci customizzate, create appositamente con l’intelligenza artificiale. Oltre a clonare la propria voce, si possono ottenere timbri ad hoc, creati sulla base di sommarie indicazioni personologiche, come il genere, l’età, il carattere. Si può editare a posteriori la traccia e presto sarà possibile aggiungere varie tonalità emotive all’audio. Ultimamente Resemble ha integrato GPT-3 alla sintesi vocale per rendere più dinamica la conversazione con l’assistente. E’ molto semplice, si parte dando alcuni spunti, poi si specifica se l’intenzione debba essere pubblicitaria o un help desk. Più informazioni si offrono del prodotto che GPT-3 dovrà vendere, più sarà efficace il convincimento, così, da aiuto per il business, diventa facilmente un veicolo di bufale estremamente persuasive. A tal riguardo si legge che OpenAI e Resemble condividono il mutuo impegno di impedire usi non etici del sistema, implementando strumenti capaci di controllare contenuti dannosi.

I test di GPT-3: che cosa è davvero l’AI che sembra “umana”

L’etica della tecnologia

“Quando abbiamo stretto una partnership con OpenAI, abbiamo creato un filtro dei contenuti che impedisce agli utenti di generare testo che viola i nostri termini di servizio. Rileveremo automaticamente contenuti politici, religiosi o che parlano di una classe protetta come razza o nazionalità. Preveniamo anche il testo che contiene un linguaggio volgare, pregiudizievole o odioso, qualcosa che potrebbe essere NSFW o testo che ritrae determinati gruppi / persone in modo dannoso. Ciò assicurerà che il testo generato sia accettabile per gli standard sociali”.

Anche il galateo suggerisce di evitare discorsi di religione e di politica, specialmente a tavola. Si stanno prendendo a modello le regole del bon ton per addestrare moralmente l’AI?

Nel sito di Resemble c’è poi una sezione specificamente dedicata all’etica della tecnologia. Siamo informati della possibilità di clonare voci di terzi previa liberatoria, tranquillizzandoci comunque del pieno possesso dei diritti sulla nostra voce. Insomma, Resemble non venderà il nostro timbro a terzi.

“L’etica e la morale sono al centro di Resemble, da come gestiamo l’azienda a come costruiamo la tecnologia. Quando abbiamo lanciato Resemble, sapevamo che avremmo dovuto affrontare la preoccupazione delle persone per i deepfake, ovvero il fatto che le persone che si spaccino per qualcun altro. Con l’aumento delle voci sintetiche, l’etica è un problema serio e volevamo condividere come noi di Resemble ci stiamo avvicinando a questo problema mentre questa tecnologia diventa mainstream. La piattaforma di Resemble è bloccata in modo tale che solo chi parla può clonare la propria voce. Durante la registrazione, Resemble impone all’utente di pronunciare una serie di frasi particolari con la tua voce. Un uso improprio di questo può essere facilmente rilevato dal nostro algoritmo. Una volta creata la voce, l’utente possiede tutti i diritti su quella voce. Non utilizziamo i dati vocali per addestrare altri modelli, né vendere i dati vocali a società terze. Per soluzioni personalizzate, collaboriamo con le aziende attraverso un processo rigoroso per assicurarsi che la voce che stanno clonando sia utilizzabile da loro e, avere i consensi appropriati in atto con i doppiatori”.

La fiaba e la tecnologia

Mi viene in mente la scena della Sirenetta della Disney, quando Ursula utilizzando la voce rubata ad Hariell si spacciò per la misteriosa ragazza che avrebbe salvato il principe dopo il naufragio, convincendolo a farsi sposare al posto della Sirenetta. Oggi siamo giunti in una fase storica in cui la fiaba è tecnologicamente possibile. Ormai l’attendibilità delle intercettazioni e delle indagini in generale è compromessa: anche quando una chiamata fosse vera, non rappresenterebbe più una prova cruciale. L’IA può clonare tutte le descrizioni digitalizzate degli individui: fotografie, tracce vocali, stile compositivo. Ci resta solo la nostra presenza analogica.

Il clone è un’eterotopia alla Foucault? Nella fisiologia, il termine si usa quando un organo o un tessuto sono siti in luoghi diversi dalla loro collocazione normale. Il filosofo francese impiega la parola per descrivere quegli spazi a metà strada tra le utopie e lo spazio reale. Il cimitero era uno degli esempi proposti da Foucault. Si tratta di un’interfaccia tra vivi e morti, un luogo-non-luogo capace di giustapporre e localizzare dimensioni inconciliabili. Il deepfake, analogamente, è un esempio di realtà irreale, di verità falsa. Connesso a un individuo e al contesto in cui il soggetto si muove, è contemporaneamente in grado di scindere tutti i legami semantici che dovrebbe rappresentare. Ogni deepfake si è ritagliato uno spazio di azione proprio, capace, tuttavia, di ripercuotersi sugli spazi che simula. La voce sintetizzata ha sede in un luogo diverso dal mio eppure, rappresentandomi, può condizionare la mia vita.

Il deepfake il paradosso del mentitore

Il synt generato dal machine learning è autentico e contemporaneamente falso. E’ una sorta di paradosso del mentitore o della nave di Teseo. Il deepfake coglie la nostra originalità, la copia, ed è originale a sua volta. Ha due verità: una diversa dalla nostra e una uguale. La contraddizione si risolve specificando cosa ci interessa sapere: se agisce indipendentemente da noi o se ha la nostra forma. In ogni caso, siccome la priorità logica, ontologica e cronologica la deteniamo noi, manteniamo un ruolo di vero essere, a mo’ di eidos platonico. Senza i nostri dati non esisterebbe, pertanto bisogne concludere che l’originalità del fake è solo derivata, come un riflesso qualunque e quindi un’eterotopia.

Il machine learning agisce in modo simile alla creatività. Il deepfake, anche quando non rappresenta alcun individuo, non nasce dal nulla. Come un’opera d’arte, sono sempre una ricombinazione di materiali già visti. Da questo punto di vista, un’opera umana non è mai autentica, è sempre imitazione, plagio. Perché allora viene riconosciuto il diritto d’autore? Perché la creatività, benché operi assemblando materiale preesistente, produce sempre qualcosa di nuovo: il tutto è più della somma delle parti. L’individuo non è i suoi genitori, nonostante i suoi geni siano rintracciabili nel DNA materno e paterno. Allora che cos’è il deepfake? Emerge qualcosa di nuovo dalla statistica applicata alla nostra biometria?

Oltre alla replica della nostra voce per creare assistenti vocali customizzati e per velocizzare la produzione di podcast, i deepfake compaiono nella musica. Qualche anno fa apparve un Dylan che interpretò una hit di Britney Spears sul canale youtube Vocal Synthesis. Nella canzone d’autore italiana anche Max Manfredi annuncia di avere in serbo un featuring sia con Bob Dylan, sia con Leonard Cohen. La canzone apparterrà al prossimo attesissimo album “Il grido della fata”. Le voci sono state generate da un’intelligenza artificiale, tranne, forse, quella del cantautore Max Manfredi. Se Bob Dylan può ancora testimoniare di non essere quella voce, Leonard Cohen rappresenta una collaborazione post mortem e quindi è una testimonianza non negabile.

In molti casi i deepfake si sono confermati i protagonisti della nostra incapacità di dire addio alle persone, di accettare la morte. Tonino Accolla fu uno dei più noti doppiatori italiani, storica voce di personaggi come Homer Simpson. Dopo la sua morte, si aprì la ricerca dell’imitatore perfetto, per non lasciare il pubblico con la sensazione che anche i personaggi ci avessero lasciato con lui. Oggi è Lopez a doppiare Homer Simpson, ma in futuro la questione sarà definitivamente risolta sfruttando la tecnologia del deepfake, anche in un’ottica di taglio dei costi. Edna, per esempio, è già doppiata negli Stati Uniti da un deepfake. L’unico limite è la piattezza delle voci, ma come si è già detto per ResembleAI le emozioni sono la prossima imminente frontiera del deep learning.

Dunque, i doppiatori storici dei cartoni animati continueranno a essere la voce dei personaggi disegnati. I Simpson saranno eterni insieme alla propria vocalità. Il trauma di sentire un doppiaggio differente non verrà più vissuto. Tutto questo potrebbe perfino incentivare la rimozione e l’incapacità di vivere i lutti, con tutto ciò che ne comporterebbe a livello cognitivo e sociale.

Conclusioni

L’esperienza della morte e la risposta che è stata proposta nelle varie culture era uno dei pochi universali umani. La nostra specie, privata dell’essere-per-la-morte, vedrà emergere mentalità che potranno fare a meno di relazionarsi con questo enigma fondamentale, permettendo ai singoli di fuggire definitivamente dal tempo. Eppure sarà una mistificazione, una finta eternità. La vita dei nostri cari riprodotta con il machine learning sarà percepita in modo simile alla presenza di un arto fantasma.

Insomma, dopo DeepNostalgia e la trasformazione in movimento delle foto di chi ci ha lasciato, anche la voce di nostra madre potrebbe diventare una chiamata realistica a cui ricorrere nei momenti di sconforto. Attenzione, però: questa fuga nell’irrealtà potrebbe finire per sconfortare ancora di più, generando pericolose dinamiche, derive superstiziose affini alle sedute spiritiche.