Una recente ricerca scientifica pubblicata su Nature[1] ha mostrato un sistema che ha permesso ad una donna priva di voce, a seguito di un infarto che la paralizzò diversi anni prima, di ritornare a parlare mediante un sistema alimentato dall’Intelligenza Artificiale. Il team di ricercatori della University of California hanno riferito di aver fatto un notevole passo avanti per aiutare la paziente in esame a parlare di nuovo.
Come funziona il sistema per ridare la voce con l’IA
Come autentiche pietre miliari del mondo delle neuroscienze e dell’Intelligenza Artificiale, gli elettrodi impiantati nella paziente hanno decodificato i suoi segnali cerebrali mentre cercava di pronunciare frasi in “completo silenzio”.
La tecnologia utilizzata ha convertito i suoi segnali cerebrali in linguaggio scritto e vocale e ha permesso a un avatar sullo schermo di un computer di pronunciare le parole e di visualizzare sorrisi, labbra socchiuse e altre espressioni facciali. La ricerca californiana ha dimostrato per la prima volta che le parole e le espressioni facciali possono essere sintetizzate direttamente dai segnali cerebrali, senza il ricorso a suoni emessi dalla bocca.
L’obiettivo della ricerca è di aiutare le persone che non possono parlare, a causa di ictus o di patologie come la paralisi cerebrale e la sclerosi laterale amiotrofica, a recuperare la loro voce. Per funzionare, l’impianto alimentato dall’Intelligenza Artificiale deve essere collegato via cavo dalla testa del paziente interessato ad un computer, anche se si stanno già sviluppando versioni wireless del medesimo sistema.
Il futuro: sempre più IA per superare le disabilità vocali
Secondo i ricercatori, in futuro le persone che hanno perso la parola potranno conversare in tempo reale attraverso immagini computerizzate di loro stessi che trasmettono il tono, l’inflessione e le emozioni come la gioia e la rabbia.
La ricerca della University of California riflette i rapidi progressi del settore. Solo due anni fa, lo stesso team della medesima università pubblicò una ricerca sul The New England Journal of Medicine[2] in cui un uomo paralizzato utilizzò un impianto e un algoritmo “più semplici” per produrre cinquanta parole basilari (per richiamare l’attenzione e richiedere cibo), che furono visualizzate come testo su un computer dopo aver provato a pronunciarle.
L’impianto della paziente in esame ha un numero di elettrodi quasi doppio rispetto alla ricerca del 2021, aumentando la capacità di rilevare i segnali cerebrali provenienti dai processi sensoriali e motori legati al linguaggio e collegati a bocca, labbra, mascella, lingua e laringe. I ricercatori hanno addestrato la sofisticata Intelligenza Artificiale a riconoscere non singole parole, ma fonemi, o unità sonore che possono formare qualsiasi parola. Dalle quindici-diciotto parole al minuto della ricerca del 2021, si è passato all’utilizzo di settantotto parole al minuto della ricerca in esame utilizzando, al contempo, un vocabolario molto più ampio. Si pensi che una tipica conversazione è di circa centosessanta parole al minuto.
I ricercatori dello studio in esame hanno programmato un algoritmo per decodificare l’attività cerebrale in forme d’onda audio, producendo un discorso vocale.
La lingua parlata contiene molte informazioni che non sono sempre sono testuali, come l’intonazione, il tono e l’espressione facciale. I ricercatori dell’ateneo californiano hanno programmato l’avatar della paziente con diversi dati sui movimenti muscolari. La signora ha quindi provato a realizzare espressioni facciali di felicità, tristezza e sorpresa, ciascuna ad alta, media e bassa intensità. Ha anche provato a fare vari movimenti della mascella, della lingua e delle labbra. I suoi segnali cerebrali decodificati sono stati trasmessi sul volto dell’avatar (quest’ultimo molto simile alla signora). La paziente ha così potuto intraprendere una conversazione con il marito dopo diversi anni di mancata comunicazione vocale.
La tecnologia in campo si sta muovendo così rapidamente che gli esperti ritengono che le versioni wireless del sistema qui utilizzato potrebbero essere disponibili entro il prossimo decennio. Metodi diversi potrebbero persino essere ottimali per alcuni pazienti.
Anche per la SLA
Un’altra ricerca di diverse università statunitensi (tra le quali la Stanford University) pubblicata recentemente su Nature[3] ha visto un altro gruppo di ricercatori impiantare elettrodi “più profondi” nel cervello di un paziente, rilevando l’attività di singoli neuroni, metodo che potrebbe essere più preciso, ma meno stabile di quello della University of California. Il sistema del gruppo accademico ha decodificato sessantadue parole al minuto pronunciate da un paziente affetto da SLA.
Questo studio, a differenza del primo che abbiamo esaminato, non includeva un avatar o la decodifica dei suoni. Entrambi gli studi in esame, però, hanno utilizzato modelli linguistici predittivi per aiutare a “indovinare” le parole nelle frasi. I sistemi non si limitano ad abbinare le parole, ma scoprono nuovi modelli linguistici man mano che migliorano il riconoscimento dell’attività neurale dei partecipanti.
I limiti
Nessuno dei due approcci è stato, però, completamente accurato. Quando si utilizzavano insiemi di vocaboli di grandi dimensioni, la decodifica delle singole parole era errata circa un quarto delle volte. Cosa che, tuttavia, migliorerà sicuramente nei prossimi mesi.
I ricercatori hanno scoperto di riuscire a interpretare correttamente le espressioni facciali dell’avatar, mentre l’interpretazione della voce risultava più difficile. Sviluppare un algoritmo di previsione per migliorare questo aspetto sarà il prossimo passo. Gli esperti sottolineano che questi sistemi non leggono la mente o i pensieri delle persone. Piuttosto, interpretano quello che “vedono fare” dalla persona. Certo, la lettura del pensiero potrebbe essere possibile in futuro, ma non senza sollevare inevitabili problemi etici e di privacy.[4]
Note
[1] A high-performance neuroprosthesis for speech decoding and avatar control. Nature. https://www.nature.com/articles/s41586-023-06443-4
[2] Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria. The New England Journal of Medicine. https://www.nejm.org/doi/full/10.1056/NEJMoa2027540
[3] A high-performance speech neuroprosthesis. Nature. https://www.nature.com/articles/s41586-023-06377-x
[4] A Stroke Stole Her Ability to Speak at 30. A.I. Is Helping to Restore It Years Later. The New York Times. https://www.nytimes.com/2023/08/23/health/ai-stroke-speech-neuroscience.html