intelligenza artificiale

Riconoscimento del parlante nelle indagini forensi: dall’ascolto esperto all’IA



Indirizzo copiato

Il riconoscimento del parlante unisce linguistica, acustica e informatica. L’evoluzione metodologica parte dall’analisi uditiva esperta fino ai moderni sistemi di intelligenza artificiale, applicabili in ambito forense indipendentemente dalla lingua utilizzata

Pubblicato il 14 apr 2025

Michelangelo Di Stefano

senior consultant – tecniche investigative e forensi avanzate

Daniele Rubiu

PMO Digital Innovations Specialist presso Pragma Etimos s.r.l.



artificial-intelligence-3382507_1280

Il riconoscimento del parlante si colloca, oggi, all’intersezione tra diverse discipline: dalla fonetica forense alla linguistica, fino alle più avanzate scienze informatiche. Se le tecniche tradizionali si basavano sull’analisi acustica e sull’ascolto esperto, l’evoluzione tecnologica ha progressivamente esteso il campo d’indagine al più ampio ambito dello speech processing.

Con questo termine si fa riferimento all’insieme delle tecnologie e dei metodi per l’elaborazione automatica del parlato, che abbraccia non solo il riconoscimento del contenuto di una comunicazione, ma anche l’identificazione del soggetto che la pronuncia.

In questa prospettiva, il riconoscimento del parlante diventa una delle applicazioni più avanzate e delicate dello speech processing, con implicazioni dirette non solo in ambito investigativo e forense, ma anche per la sicurezza e l’intelligence.

Prima di affrontare l’impatto specifico dell’Intelligenza Artificiale, appare dunque opportuno ripercorrere i principali rami dello speech processing e le criticità connesse alla variabilità del parlato, al fine di comprenderne i limiti e le opportunità nelle moderne scienze forensi.

Le scienze forensi e il riconoscimento della voce

La comunità scientifica aveva iniziato ad interessarsi al riconoscimento della voce negli anni ’60 in ambito ad alcune perizie giudiziarie nelle aule di tribunale del Nord America.

In Italia, le prime aperture verso la comparazione di una voce per la sua identificazione, si registrarono agli inizi degli anni ’70, allorquando la Consulta[1], si era pronunciata impartendo disposizioni in materia di intercettazioni giudiziaria che sarebbero state effettuabili, esclusivamente, in caso di espressa autorizzazione della competente autorità giudiziaria;

Da qui l’intervento del legislatore che con la legge 8 aprile 1974, n. 98, nel recepire i dettami del Giudice delle Leggi, avrebbe introdotto l’obbligatorietà di convogliare tutte le operazioni di intercettazione[2] presso gli impianti installati nelle sale ascolto delle singole procure (art. 226 bis cpp Rocco).

Qualche tempo dopo, nella fase più calda del c.d. “anni di piombo”, dopo l’omicidio di Aldo Moro avvenuto il 9 maggio 1978, con la L. 18 maggio 1978 n. 191, all’art. 9 il legislatore avrebbe disciplinato le intercettazioni preventive introducendo nel vecchio codice Rocco l’art. 226 sexies (traslato nel codice Vassalli all’art. 226 delle norme di attuazione e coordinamento).

Ecco che in quel periodo si era resa la necessità di giungere all’identificazione di un parlatore all’interno di un reperto fonico giudiziario o, ancora, di identificare una area geografica rappresentativa di una determinata comunità di parlante (le c.d. isoglosse).

Uno dei più importanti esperti mondiali nel campo fonico e fonetico forense è stato, certamente, il compianto Andrea Paoloni, che aveva tracciato in più contributi scientifici le linee guida dei più noti metodi di identificazione del parlante riassumibili in quattro categorie metodologiche:

  • i metodi d’ascolto o uditivi;
  • i metodi basati sul confronto dei sonogrammi;
  • i metodi basati sull’analisi  dei parametri acustico-fonetici;
  • i metodi automatici basati su codifiche del segnale vocale.

Quello che segue è un estratto di sintesi delle considerazioni proposte in uno dei tanti articoli scientifici su “Le indagini foniche” dal Prof. Paoloni[3]:

I metodi d’ascolto o uditivi

“[…] I metodi di ascolto annotava Paoloni –  possono essere ulteriormente suddivisi [Nolan 1997] in un primo criterio basato su un reiterato ascolto, da parte di un esperto, dei campioni di voce in esame al fine di individuare eventuali elementi di natura linguistica, fonatoria o acustica comuni alle due voci.

Queste ultime possono essere ascoltare sia sequenza sia alternativamente a discrezione dell’operatore che, sulla base degli elementi recepiti, esprimerà un giudizio sulla attribuzione o meno ad uno stesso parlatore delle voci ascolta te.

Un secondo criterio è quello basato sul confronto delle voci effettuato da una squadra di ascoltatori, anche non esperti.

Il materiale fonico in questo caso è costituito da un insieme di voci comprendenti la voce da identificare, le voci sospette ed eventualmente alcune voci estranee prelevate da parlatori aventi caratteristiche fonatorie simili a quelle delle voci in esame; si formano così dei veri propri test vocali costituiti da coppie di frasi ottenute raggruppando due a due, in tutte le possibili combinazioni, le voci dell’insieme.

Ciascun operatore dopo l’ascolto di ogni coppia dovrà esprimere un giudizio di attribuzione o meno delle voci uno stesso parlante.

L’elaborazione statistica dei giudizi espressi degli ascoltatori consente di giungere a conclusioni di tipo sostanzialmente qualitativo [Anil 2005]. […]”.

I metodi basati sul confronto dei sonogrammi

“[…] Un secondo metodo è quello che fa uso di una tecnica un tempo diffusa di identificazione parlante, tecnica che prevede il confronto tra sonogrammi ovvero tra quei particolari diagrammi tridimensionali che forniscono una rappresentazione grafica dell’andamento temporale della frequenza e dell’intensità del segnale vocale.

Il tempo è riportato sull’asse delle ascisse, la frequenza su quello delle ordinate mentre le diverse gradazioni di grigio od un’opportuna scala di colori forniscono la misura del livello energetico il segnale.

Questi sonogrammi contengono sia informazioni di carattere linguistico comuni alle emissioni verbali di tutti i parlanti una data lingua, sia informazioni sulle caratteristiche acustiche e fono articolatorie individuali di ciascun parlante.

L’analisi spettrografica ha avuto un notevole sviluppo d’impiego in ambito giudiziario a opera soprattutto di Kersta [Kersta1962] e Tosi [Tosi 1979] i cui nomi, specialmente per le clamorose polemiche sollevate dalle loro perizie per i tribunali Nord americani, sono divenuti famosi anche al di fuori della ristretta cerchia degli studiosi del campo.

Si deve peraltro osservare che lo spettrografo non è altro che un analizzatore spettrale di segnale, e pertanto per un suo impiego nel riconoscere il parlatore è necessario definire un’opportuna metodica.

L’impiego giudiziario della spettrografo è possibile solo se si può disporre di campioni di voci anonime e saggi di comparazione aventi lo stesso contenuto  linguistico (stessa frase).

In questo caso i relativi sonogrammi consentono lo studio delle somiglianze mediante la comparazione visiva dei tracciati. Viene sfruttata la capacità umana di cogliere somiglianze tra figure anziché tra suoni [Koening 1993]. Nei riguardi di questo metodo sono comunque da tenere in debita considerazione alcuni punti importanti: la circostanza che i sonogrammi non sono affatto assimilabili alle impronte digitali, che restano immutabili per la stessa persona durante il corso della vita. Infatti anche la medesima parola pronunciata dalla stessa persona in tempi immediatamente successivi non dà luogo a rappresentazioni grafiche sovrapponibili.

La circostanza che il rilevamento e la classificazione degli eventi caratterizzanti il sonogramma sono affidate all’esperienza e alla capacità critica dell’esperto; la circostanza che alcune prove di confronto hanno evidenziato che, nell’identificazione del parlatore, il semplice ascolto è comunque superiore rispetto l’uso dei sonogrammi […]”[4].

I metodi basati sull’analisi dei parametri acustico-fonetici

“[…] Un terzo metodo è quello basato sull’analisi acustico fonetica [Falcone 1995], [Paoloni 1998]: si tratta di estrarre dai campioni di voce a confronto particolari caratteristiche acustiche, quali la durata delle occlusive, le formanti delle vocali, la velocità di articolazione, la frequenza fondamentale, che si ritengano maggiormente rappresentative della voce l’individuo e meno influenzate dal canale di trasmissione.

Il metodo parametrico assume come elementi di caratterizzazione della voce alcuni parametri spettrali e temporali che presentino al contempo piccole variabilità nello stesso individuo (variabilità intra parlante) e variabilità notevole tra individui diversi (variabilità inter parlanti) [Wolf 1972], [Federico 1987].

Il metodo può essere descritto in tre diverse fasi operative:

  1. una prima fase riguarda la scelta dei campioni di voce da analizzare.

      Questa operazione è assai delicata perché occorre selezionare, tra il materiale fonico disponibile, parole o frasi che oltre a essere effettivamente rappresentative della popolazione di riferimento, devono anche possedere caratteristiche qualitative (rapporto segnale rumore, larghezza di banda e durata) tali da consentire l’estrazione corretta delle misure strumentali.

  • La seconda fase riguarda misura dai suddetti campioni dei parametri spettrali e temporali atti a caratterizzare la voce.
  • La terza fase infine, la fase di decisione, pone a confronto le misure effettuate al fine di stabilire la identificabilità o meno dei campioni di voce a confronto [Paoloni 1998]. Il quarto metodo infine è quello cosiddetto automatico [Drygajlo 2003], [Drygajlo 2007].

I parametri utilizzati nel riconoscimento del parlante sono di due tipologie:

  1. Quelli acustico- fonetici, correlati con la percezione dell’ascoltatore e con aspetti fonetici come le frequenze formanti o la durata dei foni;
  2. quelli di tipo spettrale originati da una qualche codifica del segnale audio come i coefficienti LPC e i coefficienti cepstrali che vengono calcolati ad intervalli regolari utilizzando finestre di ampiezza opportuna.

I parametri del primo tipo presentano il vantaggio di poter essere facilmente valutati dall’esperto, che li può validare o meno e di essere, anche per questo motivo, meno influenzati dal canale di trasmissione.

Lo svantaggio di questi parametri che la loro misura avviene manualmente o, quanto meno in modo semiautomatico con l’ausilio di un esperto.

Al contrario i parametri di tipo spettrale provenienti da una qualche codifica, sono di facile veloce stima, perché la loro misura può essere completamente automatizzata.

Di contro è impossibile giudicare la validità del dato con una semplice osservazione dei suoi valori. Questi ultimi parametri sono influenzati in modo sensibile dalle caratteristiche del canale.

I metodi automatici basati su codifiche del segnale vocale.

I metodi automatici fanno uso di questo secondo tipo di parametri.

Si tratta di elaborare un modello statistico dei parametri cepstrali in cui il segnale da riconoscere è stato codificato e mettere confronto i modelli statistici dei diversi campioni.

È evidente che tanto più i modelli statistici sono simili tra loro, tanto più probabilmente il campione proverrà dalla stessa persona.

Principale limite di questi metodi è quello che abbiamo sottolineato, il fatto che risentono in maniera significativa dell’influenza del canale di trasmissione, inteso in senso lato, ovvero sia del rumore dell’ambiente di emissione sia del tipo di codifica alla quale il segnale stato già sottoposto […]”[5].

L’impiego di metodi automatici o semi automatici di riconoscimento del parlatore è oggetto di studio scientifico ormai dagli anni ’90 del secolo scorso:  “[…] L’identificazione è il risultato secondario di un processo di discriminazione di una voce. Se due entità devono essere discriminate attraverso i loro attributi allora queste, se differenti, devono differire nei loro attributi. Così, se due persone vengono discriminate e riconosciute attraverso la loro voce allora devono differenziarsi ed essere riconosciute attraverso la loro voce. La voce, così intesa, è un oggetto multidimensionale e come tale deve essere trattato. Riteniamo che solo la competenza di un esperto possa aiutare a scegliere la dimensione più adeguata e la composizione delle differenti dimensioni. Non tutte le caratteristiche, infatti, aggiungono informazione al processo di comparazione, e non tutte le caratteristiche hanno lo stesso peso (statistico) e lo stesso carico informativo. Questo lavoro non ha le pretese di modificare le condizioni generali delle comparazioni foniche (SR) ma solo di verificare sperimentalmente il peso di ogni singola variabile e soprattutto di valutare la variabilità inter e intraparlante in funzione degli stili di parlato e dei canali di registrazione. I risultati ottenuti in questo lavoro si differenziano in base ai parametri e alle variabili considerate. Considerando le variabili definite statiche, i risultati ottenuti dimostrano che la modalità della voce influenza consistentemente i valori della frequenza fondamentale (parametro considerato molto importante nelle comparazioni foniche) […][6].

Nel riassumere:

  • i metodi d’ascolto o uditivi, si basano su un reiterato ascolto da parte di un esperto, o sul confronto delle voci effettuato da una squadra di ascoltatori, anche non esperti. L’elaborazione statistica dei giudizi espressi degli ascoltatori consentirà di giungere a conclusioni di tipo sostanzialmente qualitativo.
  • Ancora, i metodi basati sul confronto dei sonogrammi attraverso lo spettrografo,estraggono sia informazioni di carattere linguistico comuni alle emissioni verbali di tutti i parlanti una data lingua, sia informazioni sulle caratteristiche acustiche e fono articolatorie individuali di ciascun parlante.

In detto scenario di analisi, il rilevamento e la classificazione degli eventi caratterizzanti il sonogramma, nell’identificazione del parlatore, sono affidate all’esperienza e alla capacità critica dell’esperto, ma il semplice ascolto sarebbe comunque superiore rispetto l’uso dei sonogrammi.

  • Vi sono, poi, i metodi basati sull’analisi dei parametri acustico-fonetici, consistente l’estrazione dai campioni di voce a confronto particolari caratteristiche acustiche, quali la durata delle occlusive, le formanti delle vocali, la velocità di articolazione, la frequenza fondamentale, che si ritengano maggiormente rappresentative della voce l’individuo e meno influenzate dal canale di trasmissione.

Il metodo parametrico prende a riferimento alcuni parametri spettrali e temporali che presentino al contempo piccole variabilità nello stesso individuo (intra parlante) e variabilità notevole tra individui diversi (inter parlanti).

I parametri acustico fonetici possono essere facilmente valutati dall’esperto, che li può validare o meno, ma la loro misura avviene manualmente o, quanto meno in modo semiautomatico con l’ausilio di un esperto.

Invece i parametri di tipo spettrale provenienti da una qualche codifica, sono di facile veloce stima, perché la loro misura può essere completamente automatizzata.

  • Infine, vi sono i metodi automatici basati su codifiche del segnale vocale, che procedono all’elaborazione di un modello statistico dei parametri cepstrali in cui il segnale da riconoscere è stato codificato e mettere confronto i modelli statistici dei diversi campioni: tanto più i modelli statistici sono simili tra loro, tanto più probabilmente il campione proverrà dalla stessa persona.

In tutte le ipotesi descritte va, comunque, evidenziato un altro concetto di base riguardante il rapporto tra il segnale fonico oggetto di interesse ed eventuali rumori[7] e disturbi che potrebbero condizionarne l’intellegibilità, secondo il criterio generale che il frammento fonico, perché possa essere ritenuto utilizzabile in un contesto forense, debba essere maggiore del rumore (o disturbo) di almeno 10 dB (il decibel è una misura del rapporto tra intensità dei due segnali S/R).

La Likelihood Ratio (LR)

Il rapporto di verosimiglianza era stato affrontato più volte da Paoloni nei suoi studi “Sul riconoscimento del parlante in ambito forense”, annotando che:

“[…] L’identificazione delle persone nell’ambito giudiziario è compito del tribunale. Ne consegue che l’esperto non deve esprimersi in termini di identificazione positiva o negativa, ma in termini di rapporto di verisimiglianza. Purtroppo l’attualità ci porta ad esprimere preoccupazione per le modalità utilizzate da alcuni esperti nello svolgimento del compito loro demandato, sia per quanto riguarda la scelta del metodo di identificazione, sia per la presentazione delle conclusioni raggiunte. Sarebbe di grande utilità fare chiarezza su come la consulenza di riconoscimento del parlante debba essere svolta e come i risultati debbano essere presentati. 

Le prove scientifiche rivestono un ruolo sempre più importante nel processo penale. Ne consegue il rischio che il termine “scientifico” possa fare pensare che il risultato ottenuto attraverso l’espletamento della prova scientifica, abbia la caratteristica della verità. Le prove scientifiche sono soggette, come tutte le altre tipologie di prova, ad errore.

Per alcune di esse tuttavia esiste un metodo codificato e ampiamente validato (uno standard), seguendo il quale l’errore rimane confinato in un ambito ristretto e soprattutto noto. Prendiamo ad esempio l’impronta digitale: il confronto è soggetto a precise norme da rispettare affinché il confronto sia valido con errore definito.   La Cassazione, con la sentenza n. 10567 del 13 novembre 1985 (Sezione 2, Pres. Savina, Rel. Della Penna), ha stabilito che l’identità dei due impronte è ritenuta prova solo “attraverso l’esistenza di almeno 16-17 punti caratteristici uguali per forma e posizione” e che “siano state trovate almeno 16 corrispondenze tra le impronte a confronto”. Le corrispondenze vengono evidenziate nelle due impronte nell’ambito della consulenza.

La probabilità che esista un’impronta con le stesse caratteristiche appartenente a un altro individuo è da ritenersi pressoché trascurabile. Naturalmente anche per questa prova esistono problemi legati alla possibilità di realizzare false impronte tramite calco e alla inutilizzabilità dell’impronta in quanto corrotta o disponibile in frammento troppo piccolo. Un’altra tecnologia, quella del DNA, è altrettanto definita nelle modalità di analisi (misura delle polimerasi) e nelle modalità di identificazione basate sulla statistica Bayesiana volta a definire un rapporto di verisimiglianza (Likelihood Ratio, LR).

L’approccio Bayesiano, riassumibile nella nota formula:

riscritta in termini di rapporto di scommessa (odds): O(A/B) = LR x O(A) ci dice che la probabilità a posteriori (dopo l’esperimento) è data dalla probabilità a priori (prima dell’esperimento) moltiplicata per il rapporto di verisimiglianza (LR). Ora il problema non è solamente il calcolo di LR, ma anche la stima della probabilità a priori. In alcuni casi, come per il DNA, dove LR è molto elevato, la probabilità a priori ha un peso limitato, nel senso che basta presupporre che una qualsiasi persona (compreso il sospettato) sia il possibile possessore del DNA (1/intera popolazione mondiale) per giungere a probabilità di identificazione rilevanti […][8].

L’analisi della lingua

Le riflessioni di Paoloni, che attengono l’analisi fonologica di una lingua umana, impongono una ulteriore precisazione qui rivolta, in generale, all’analisi della lingua italiana[9] che avviene secondo le proprietà della c.d. biplanarità e della doppia articolazione, che identificano tre strati diversi del segno linguistico: il mero significante (fonema, 2^ articolazione), il significante portatore di significato (morfema, 1^ articolazione) ed il significato.

Il livelli di analisi sono quattro: i primi tre livelli riguardano il significante, ed il quarto livello analizza il significato[10]; di seguito un sintetico prospetto riepilogativo:

                                                                                                                                               

L’apparato fonatorio umano

Abbiamo visto nei precedenti paragrafi che – secondo le metodologie di analisi tradizionali – l’attuale stato dell’arte per la comparazione di una voce prende a riferimento, essenzialmente, accanto all’ascolto da parte di un esperto, alcune caratteristiche acustiche che evidenziano in modo chiaro il pattern dei tratti individuali maggiormente significativi, come la durata delle occlusive, le formanti delle vocali, la velocità di articolazione e, ancora, la frequenza fondamentale che, in particolare, fornisce elementi identificativi su sesso e l’età: negli uomini, la frequenza di un parlato conversazionale è ricompresa tra i 70 e i 150 Hz, aumentando tra i 150 e i 250 Hz per la donna, fino a risalire tra i 250 e i 350 Hz per i bambini.

Adesso, nelle best practices in ambito forense, si ricorre soventemente all’assunzione di saggi fonici[25] provenienti da uno o più soggetti noti, al fine di procedere ad una comparazione con reperti di interesse giudiziario che sono oggetto di vertenza.

Una delle comparazioni avviene effettuando un confronto parametrico di quelle frequenze di risonanza generate dalle cavità sopralaringali definite formanti[26] (cioè) relative alle singole vocali ivi contenute[27]; si tratta, in questo caso, di una forma di identificazione di tipo biometrico, né più e né meno come quella riguardante l’iride, le impronte digitali o la biometria del volto.

“[…] Per offrire una descrizione elementare della tematica, senza ricorrere a richiami scientifici, per spiegare in modo semplice cosa si intende per “formante”, si farà un banale distinguo tra vocali e consonanti: le prime sono elementi sonori prodotti dall’apparato fonatorio, mentre le seconde sono dei rumori (con-sonanti, cioè con le suonanti) prodotti dallo stesso apparato, che concorrono nella produzione fonatoria umana.

Le vocali (suonanti) sono, quindi, in grado di produrre delle frequenze fondamentali, che possono essere individuate ed isolate nel corso di un’analisi fonica, e vengono prodotte in una sorta di “camera” che si trova tra la glottide e le labbra senza l’influenza del contatto dei denti con la lingua.

Lo spostamento della lingua all’interno di questa “stanza” e la diversa impostazione di apertura della stessa, costituita dalle labbra e dalla relativa protrusione o labializzazione delle stesse, produrrà delle sonorità differenti che identificano le diverse frequenze formanti costituite dalle vocali […]”[28].

Lo speech processing

Traslando l’approfondimento di analisi dalla linguistica alle scienze informatiche, lo studio sul riconoscimento del parlatore si inquadra nella macroarea di studio definita speech processing, cioè quel settore di studio che inquadra l’elaborazione di informazioni vocali e delle tecnologie alle stesse correlate.

Si tratta di un àmbito di ricerca sempre più esplorato nel mondo dell’intelligence, sia per questioni strategiche, tattiche (ma anche commerciali) e dovelo speech processing “ […] ingloba uno strumento operativo a cui gli organismi di sicurezza ricorrono, in generale, ormai da diversi anni, nell’attività di monitoraggio di macroaree geografiche di comunicazione per esigenze di sicurezza internazionale, procedendo all’ispezione di fonti aperte sul web con l’utilizzo di software[29] di analisi semantica[30] con tecnologie TAL[31], interessandosi allo Speech Processing (che tratta l’ elaborazione del parlato) e al Natural Language Processing (che tratta l’ elaborazione del testo)[32]; e, ancora, impiegando protocolli di analisi semantica approfondita, definiti Intelligence Data Mining[33], finalizzati all’individuazione di informazioni nascoste[34] […]”[35].

In ambito allo speech processing, si distinguono:

  • “[…] speech recognition: le informazioni acustiche (a mò di  esempio, i comandi vocali impartiti ad una macchina, come un pc o un telefono) vengono convertite in informazioni di tipo linguistico, descrivibile attraverso  trascrizione in un formato di testo  o comprese dal sistema informatico.
  • speech synthesis: consiste nella capacità di un determinato sistema di elaborazione dati, in grado di sintetizzare, quindi simulare,  la voce umana con tutte le possibili inflessioni ed aspetti prosodici.
  • speech understanding:  concerne la comprensione  semantica delle frasi che compongono il “parlato”, con l’ausilio di speciali algoritmi di intelligenza artificiale e di reti neurali dedicati.
  • speaker recognition: si interessa al  riconoscimento del parlatore ( l’impronta vocale è, sotto il profilo biometrico, univoca come quella digitale) con l’impiego di algoritmi di analisi numerica dei segnali (ad es. la trasformata di Fourier)[36].
  • vocal dialog:  attraverso il v.d. è possibile riprodurre in un sistema informatico le caratteristiche dialogiche fra due parlanti. Un calcolatore si occuperà al riconoscimento dell’interlocutore, all’ identificazione delle singole parole ed alla comprensione del lessico nel suo insieme. Il sistema dovrà poi saper elaborare una risposta, a sua volta tradotta da un sintetizzatore vocale […]”[37].

Va subito distinta la branca del riconoscimento del contenuto del parlato (speech recognition), finalizzata a comprendere “cosa viene detto”, dalla branca del riconoscimento del parlante (speaker recognition), finalizzata a identificare “chi sta parlando”, indipendentemente dal contenuto del discorso.

Mentre la prima è legata all’elaborazione semantica e linguistica, la seconda riguarda l’identificazione biometrica della voce, basata sulle caratteristiche univoche del timbro vocale.

Una particolare criticità che trova compendio nello studio dello speech processing è quella correlata alle c.d “variabilità” linguistiche e, in particolare:

  • “[…] variabilità acustica: i fonemi sono soggetti alla c.d. coarticulation effect, differenziandosi in base al contesto di pronuncia, producendo effetti acustici diversi tra loro. In buona sostanza, l’impronta sonora è fortemente condizionata dall’ambiente di produzione del suono (più avanti sarà fatto specifico riferimento ad alcune di queste criticità trattando il fading, muffling, riverbero ambientale e rumori di fondo);
  • variabilità del parlato: i suoni sono pesantemente condizionati  dallo stato emozionale del parlante, ed emessi  con tonalità diverse. Un esempio calzante è quello dei frequenti condizionamenti fisiologici che, in condizione stressorie ed emozionali, modificano il pattern abituale e, in particolare, quello vocale, determinando delle forme di microtremore (rilevabili con i c.d. voice stress analyzer);
  • variabilità del parlante: i sistemi di riconoscimento vocale devono essere rodati al fine di riuscire a riconoscere l’impronta vocale di un parlante;
  • variabilità linguistica: con riguardo al significato, il relativo riconoscimento  è condizionato dal fatto che concetti analoghi  possono trovare esplicazione attraverso frasi diverse, ed ancora differente interpretazione;
  • variabilità fonetica: una stessa parola trova rappresentazione fonetica differente, diversificandosi nella pronuncia a seconda della provenienza geografica del  soggetto parlante […]”[38].

Le variabilità linguistiche, fonetiche e del contenuto rappresentano una sfida importante per i sistemi di speech recognition, in quanto influenzano la capacità di comprendere correttamente il messaggio verbale.

Tuttavia, nei sistemi moderni di speaker recognition, se basati su robusti e testati modelli di Intelligenza Artificiale, il riconoscimento del parlante si realizza a prescindere dalla lingua o dal contenuto, concentrandosi su tratti biometrici della voce indipendenti dal messaggio.

Proprio per affrontare e superare alcune delle sfide storiche legate alla variabilità del parlato – come quelle acustiche, fonetiche e ambientali – l’Intelligenza Artificiale sta oggi rivoluzionando il panorama del riconoscimento del parlante.

Le più recenti applicazioni dell’IA consentono infatti di riconoscere un individuo a prescindere dalla lingua parlata o dal contenuto del discorso, puntando su caratteristiche biometriche della voce.

Nei prossimi paragrafi, analizzeremo le potenzialità e le sfide dei sistemi AI di speaker recognition, il loro ruolo nell’ambito forense e le competenze richieste agli esperti chiamati a valutare e validare tali risultati.

L’evoluzione dell’Intelligenza Artificiale nel riconoscimento del parlante

Negli ultimi anni, l’avvento delle tecnologie di Intelligenza Artificiale (IA) e del deep learning ha profondamente modificato l’approccio al riconoscimento del parlante, segnando un passaggio epocale rispetto ai metodi classici basati sull’ascolto esperto e sull’analisi acustico-fonetica manuale.

Mentre in passato il riconoscimento del parlante richiedeva un’analisi diretta e spesso soggettiva da parte del perito, oggi i sistemi automatici sono in grado di analizzare grandi quantità di dati vocali in modo rapido, oggettivo e ripetibile.

La principale innovazione apportata dai sistemi IA consiste nella capacità di riconoscere un individuo indipendentemente dalla lingua o dal contenuto del discorso.

I moderni algoritmi di speaker recognition basati su modelli statistici e rappresentazioni numeriche della voce (embedding) si concentrano sulle caratteristiche biometriche univoche del parlante, svincolandosi dal contenuto linguistico o dal dialetto. Questa caratteristica rappresenta una svolta rispetto ai metodi tradizionali, che spesso richiedevano un’analisi linguistica del contenuto.

Le potenzialità dell’IA in questo ambito sono notevoli: capacità di operare su larga scala, rapidità di elaborazione, eliminazione della soggettività dell’ascolto umano, e applicabilità a materiali fonici di qualità variabile.

Tuttavia, restano aperte alcune criticità importanti[39]: la necessità di garantire robustezza ai rumori e ai diversi canali di registrazione, la gestione del rischio di bias legati ai dati di addestramento, e l’emergere di nuove minacce come i deepfake vocali.

In questo contesto, il ruolo dell’esperto forense non viene affatto meno: al contrario, si evolve in una figura capace di interpretare e validare i risultati generati dai sistemi AI. L’esperto non è più soltanto un ascoltatore o un analista manuale, ma un professionista capace di spiegare in aula il funzionamento dei modelli automatici, di valutarne l’idoneità rispetto al caso specifico e di garantire la correttezza metodologica dell’intero processo.

Le competenze richieste a chi si occupa oggi di riconoscimento forense della voce devono, dunque, estendersi oltre la fonetica e includere nozioni di machine learning, reti neurali, linguistica computazionale e capacità di lettura critica delle metriche fornite dai sistemi automatici.

Solo una piena comprensione del funzionamento di queste tecnologie può garantire un uso corretto e giuridicamente sostenibile dell’Intelligenza Artificiale in ambito forense.

L’importanza dei dataset per la validazione e l’affidabilità forense

Se da un lato l’Intelligenza Artificiale permette di riconoscere un parlante a prescindere dalla lingua, dal contenuto del discorso e dal dialetto, dall’altro lato l’ambito forense richiede sempre una giustificazione scientifica e quantitativa del risultato ottenuto.

In particolare, la determinazione del Likelihood Ratio (LR)[40], strumento fondamentale per valutare la probabilità che una voce appartenga a un determinato individuo rispetto a un altro, si basa sulla possibilità di confrontare il reperto con un numero adeguato di campioni simili.

I dataset pubblici di riferimento, come VoxCeleb[41] o il benchmark internazionale NIST Speaker Recognition Evaluation (SRE)[42], rappresentano uno standard importante per l’addestramento e la verifica iniziale dei modelli, ma spesso non sono sufficientemente rappresentativi della popolazione di riferimento per uno specifico caso forense[43].

Per garantire una stima corretta del LR[44], è infatti necessario disporre di dati di confronto che riflettano il più possibile le caratteristiche del soggetto in esame, comprese età, sesso, condizioni foniche e modalità di registrazione.

Pertanto, sebbene l’AI sia in grado di riconoscere il parlante indipendentemente dal contenuto o dalla lingua, per confermare la validità del risultato, in sede forense è necessario disporre di dataset specifici per simulare confronti realistici e stimare in modo accurato il rischio di errore.

La comunità scientifica e forense è quindi chiamata a uno sforzo congiunto per sviluppare raccolte vocali mirate, in grado di supportare la validità dei riconoscimenti automatici attraverso dati empirici pertinenti.

Senza dataset solidi e rappresentativi, anche i migliori sistemi di riconoscimento automatico rischiano di fornire risultati difficilmente difendibili in tribunale.

La creazione e condivisione di banche dati vocali specifiche, inclusa la registrazione di parlate reali (inclusi vernacoli e varianti dialettali) in contesti diversi, rappresenta quindi una priorità per garantire che il riconoscimento del parlante mantenga i requisiti di affidabilità scientifica richiesti dal processo penale.

Conclusioni e prospettive future

Il riconoscimento del parlante si colloca oggi al crocevia tra innovazione tecnologica e rigore scientifico-forense. L’introduzione dell’Intelligenza Artificiale ha reso possibile l’analisi automatica e oggettiva della voce, ma la complessità del contesto giudiziario impone di accompagnare queste tecnologie con dati adeguati e con una corretta interpretazione da parte dell’esperto.

Nei prossimi contributi, affronteremo in modo approfondito le tematiche legate alla sicurezza biometrica della voce, alla gestione dei falsi positivi e delle manipolazioni digitali, nonché al ruolo evolutivo dell’esperto forense nell’epoca dell’IA.

Note


[1] Con la sentenza 06/04/1973, n. 34.

[2] Art. 226-quater.

[3] Paoloni A., Le indagini foniche, Fondazione Ugo Boldoni, Roma (1996).

[4] Ivi.

[5] Ibidem.

[6] Romito L., Lio R., Giurdano S., Stabilità dei parametri nello speaker recognition: la variabilità intra e inter parlatore. Atti del convegno “5° Convegno AISV”, Università di Zurigo, 4-6 febbraio 2009, a cura di S. Schimd, M. Schwarzenbach, D. Studer, EDK, Torriana 2010, vol. 5, pag. 667 e ss.

[7] I rumori, in generale, si distinguono in due tipologie principali: la prima classifica i rumori c.d. “additivi” e la seconda quelli “convolutivi”. Gli additivi sono dei rumori generati da sorgenti indipendenti che vanno a sommarsi con il segnale fonico di interesse investigativo; mentre quelli definiti di tipo “convolutivo”, sono a loro volta delle riflessioni o risonanze che vanno ad interagire in modo dinamico con la struttura del segnale, come nel caso del riverbero ambientale e dell’eco. Tutte queste problematiche possono, quantomeno in parte, essere attenuate da tecniche di “speech enhancement” (Lim J.S., Oppenheim A. V., Enhancement and Bandwidth Compression of Noisy Speech, in Proceeding of the IEEE, (1979), vol. 67, n.12).

[8] Paoloni A., Sul riconoscimento del parlante in ambito forense, in Sicurezza e Giustizia, 15.1.2015.

[9] Ma il concetto può essere esteso ad ogni forma di lingua standard rispetto ad ogni macro-micro isoglossa di comunità di parlanti.

[10] Berruto G., Corso elementare di linguistica generale, Utet editore, Torino (1997), pag. 27.

[11] Ivi, pagg. 29-47.

[12] Il condotto acustico anche detto tratto vocale, ha come estremità le labbra e dall’altra parte la glottide. La glottide è il sito della prima fonte di eccitazione (quasi)periodica: le corde vocali. L’uomo, nell’esposizione verbale, è capace di generare suoni in tre forme sonore basilari: VOCALICHE: suoni prodotti eccitando il tratto vocale con un flusso di aria costituito dal treno di impulsi, quasi periodico, generato dalla vibrazione delle corde vocali; FRICATIVE: forme prodotte formando un restringimento nel tratto vocale e provocando, al passaggio forzato di aria, una turbolenza e quindi un particolare rumore (es. le consonanti f,l,r,s…); OCCLUSIVE: prodotte chiudendo l’estremità superiore del tratto vocale. All’apertura rapida, per effetto della pressione dell’aria forzatamente racchiusa, si genera il fono occlusivo (es. le consonanti b, p…).

[13] Inoltre, attraverso il modo sono definite le consonanti occlusive, fricative e affricate (che iniziano con un occlusiva e terminano con una fricativa); attraverso il luogo sono suddivise in labiali, dentali, labio dentali, palatali, velari, uvulari, faringali, glottidali.

[14] Un morfema grammaticale che si combina con una radice si chiama affisso e può essere: suffisso (e, ancora: alterazione in diminutivo, accrescitivo, peggiorativo), prefisso o desinenza.

[15] Vi sono categorie grammaticali nominali (sostantivo, aggettivo, pronome, caso, grado) e verbali (modo, tempo, persona, diatesi, aspetto). Anche classi di parole (sostantivo, aggettivo, verbo, pronome, articolo, preposizione, congiunzione, avverbio, interiezione).

[16] Soggetto, predicato verbale (trivalenza, esempio “dare”: chi da, cosa da a chi da; bivalenza, esempio “lodare”; monovalenza, esempio “correre”), oggetto, circostanziali/avverbiali.

[17] Ove ci sarà l’agente, il paziente, il beneficiario, lo strumento, la destinazione.

[18] Si distingue in TEMA/REMA: il tema/dato, sperimentatore è l’affermazione, il dato posto alla base dell’enunciato, già noto a chi parla e ascolta; il rema/nuovo, è quanto viene detto a proposito del tema, e consiste in ciò che non è stato dato prima e che verrà comunicato all’interlocutore.

[19] Nella semantica si rileva una concezione: referenziale (idee corrispondenti a qualcosa che esiste fuori dalla lingua); operazionale (significato in funzione all’uso dei segni); connotazione; denotazione (lessicale/grammaticale); enciclopedica; linguistica; sociale.

[20] Si distinguono: omonimia (significanti uguali con significato diverso non imparentati; ad esempio “riso”); polisemia (significanti diversi ma imparentati; ad esempio “collo”); sinonimia (significanti diversi e significati uguali); iponimia (il significato di uno rientra nel significato di un altro; esempio “armadio-mobile”).

[21] Nei rapporti semantici (sottosistemi lessicali) si rileva un campo semantico che distingue: una sfera semantica; una famiglia semantica; una gerarchia semantica; sensi semantici (spostamenti di significato) che a loro volta compendiano la metafora (es: sei un coniglio) e la metonimia (ho bevuto due bottiglie).

[22] Si distingue una semantica componenziale (fascio dei componenti semantici); una semantica prototipica; una semantica frasale (frase, enunciato).

[23] E, ancora: presupposto, negazione, implicito.

[24] Di Stefano M., Manuale dei periti, consulenti e polizia giudiziaria, Città del Sole editore, Reggio Calabria (2023), pagg. 24-29.

[25] L’acquisizione di saggi, per analogia, viene effettuata in ambito forense anche, ad esempio, per la comparazione di grafie in uno scenario di analisi grafonomica.

[26] www.treccani.it, Enciclopedia dell’Italiano (2010). Fonetica acustica, nozioni e termini, di Massimo Pettorino: “[…] Esistono rapporti sistematici tra parametri articolatori e parametri acustici: è possibile prevedere con buona approssimazione la struttura formantica di una vocale conoscendone le caratteristiche articolatorie; viceversa, è possibile risalire alle caratteristiche articolatorie della vocale a partire dai suoi valori formantici. Le formanti rappresentano infatti le conseguenze acustiche dei mutamenti di forma assunti dagli organi fonoarticolatori durante l’articolazione delle singole vocali. Esse sono determinate dalla dimensione, dalla lunghezza, dalla forma, e dalla estremità del tratto sopralaringale; sono inoltre una funzione della lunghezza del canale epilaringeo: all’aumentare della lunghezza, diminuisce l’altezza delle formanti, che negli uomini sono appunto più basse rispetto a quelle di donne e bambini.

Un suono vocalico può dunque essere caratterizzato acusticamente come un insieme di formanti: come provano test percettivi applicati all’italiano (Ferrero & Magno Caldognetto 1976), per l’identificazione di una vocale sono sufficienti la prima formante (quella con la frequenza più bassa) e la seconda formante (la successiva). La prima formante (abbreviata F1) è direttamente proporzionale al grado di apertura della cavità orale: una bassa F1 indica una vocale chiusa, mentre una elevata F1 indica una vocale aperta. Il movimento articolatorio che più incide sui valori di F1 è l’apertura della mandibola.

[27] www.treccani.it, Enciclopedia dell’Italiano (2011). Le vocali, di Silvia Calamai: “[…]Le vocali sono foni prodotti con un canale fonatorio libero, che non presenta chiusure né restringimenti. La loro produzione è quindi caratterizzata da una gran quantità di flusso d’aria espiratoria per tutta la loro durata e ciò, in termini acustici, corrisponde a un segnale molto intenso. Inoltre l’assenza di impedimenti permette alle cavità sopralaringali di vibrare liberamente alle proprie frequenze di risonanza, per cui le formanti saranno, sullo spettro, ben definite e marcate. Per l’individuazione delle vocali è sufficiente far riferimento all’altezza delle prime due formanti (F1 e F2) la cui dislocazione cambia a seconda della vocale: in generale si può dire che, per le vocali anteriori, più la vocale è chiusa più le due formanti sono distanti l’una dall’altra; per le vocali posteriori protruse, più la vocale è chiusa più le due formanti sono basse e vicine. Nella determinazione del grado di apertura della vocale vanno tenute presenti le seguenti corrispondenze articolatorio-acustiche: (b)un restringimento nella cavità faringale determina, rispetto ai valori formantici di [ə], l’innalzamento della F1 e l’abbassamento della F2; maggiore è la costrizione, maggiore è l’effetto sulla formante; (c) l’arrotondamento e la protrusione delle labbra determinano l’abbassamento di tutte le formanti; maggiore è la labializzazione, maggiore è l’effetto sulle formanti […]”.

[28] Di Stefano M., Aspetti sociocomunicativi della ‘ndrangheta. Le intercettazioni nelle scienze forensi, Città del sole editore, Reggio Calabria (2017).

[29] GNOSIS, Rivista Italiana d’Intelligence, Fra dati abbondanti ed informazioni scarse. Dall’analisi di lingue e parole nuove chiavi per la sicurezza, di Andrea Melegari, n.2/2006.

[30] www.saperi.forumpa.it, Obama e Romney analizzati col web semantico. Il primo parla di governo e lavoro, l’altro di presidenza e tasse. Entrambi di persone e sanità, pubblicato il 5.10.2012.

[31] Trattamento Automatico della Lingua.

[32] GNOSIS, Rivista Italiana d’Intelligence, Fra dati abbondanti ed informazioni scarse. Dall’analisi di lingue e parole nuove chiavi per la sicurezza, cit.

[33] Rispetto alle tecnologie tradizionali (a keyword e statistiche), che possono solo cercare di indovinare il senso di un testo, i SW di analisi semantica approfondita leggono ed interpretano tutta la conoscenza potenzialmente interessante e identificano in automatico le relazioni concettuali fra le varie informazioni. Individuano all’interno dei documenti i concetti più rilevanti, le entità, gli eventi e specifiche informazioni utili per l’analisi, individuando i dati principali, in qualunque modo siano espressi.

[34] GNOSIS, Rivista Italiana d’Intelligence, Fra dati abbondanti ed informazioni scarse. Dall’analisi di lingue e parole nuove chiavi per la sicurezza, cit.

[35] Di Stefano M., Lo Presti G., L’intelligenza artificiale nello speaker recognition. Automatic Speaker Identification nella ricerca e sperimentazione italiana, CyberSecurityItalia, 23 settembre 2023.

[36] Ivi.

[37] Pellegrinetti G., Introduzione allo speech processing, in www.ghostcomputerclub.it, , settembre 2001.

[38] Di Stefano M., Le trascrizioni nel processo penale. Manuale dei periti, consulenti e polizia giudiziaria, cit., pag. 50 e ss.

[39] Richmond K., AI, Machine Learning, and International Criminal Investigations: the lessons from Forensic Science, abstract (2020).

[40] Morrison G., The likelihood-ratio framework and forensic evidence in court: A response to R v T., The International Journal of Evidence & Proof, 16(1), 1–29 (2012).

[41] VoxCeleb: dataset di parlato pubblico sviluppato da Nagrani A., Chung J. S., Zisserman A., in https://www.robots.ox.ac. uk/~vgg/data/voxceleb/, https://www.isca-archive.org/interspeech_2017/nagrani17_interspeech.html

[42] NIST Speaker Recognition Evaluation (SRE): benchmark internazionale per la valutazione dei sistemi di riconoscimento del parlante, in https://www.nist.gov/itl/iad/mig/speaker-recognition.

[43] Toussaint Hutiri W., Yi Ding A., Bias in Automated Speaker Recognition, Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency (2022)

[44] González-Rodríguez J., Fierrez J., Ortega-Garcia J., Forensic identification reporting using automatic speaker recognition systems. 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, (2003), Proceedings. (ICASSP ’03). 2 (2003): II-93.

EU Stories - La coesione innova l'Italia

Tutti
Video&podcast
Analisi
VIDEO&PODCAST
Video & Podcast
Social
Iniziative
Da OpenCoesione 3.0 a Cap4City: ecco i progetti finanziati dal CapCoe.  Il podcast “CapCoe. La coesione riparte dalle persone”
Capacità amministrativa e coesione: il binomio vincente per lo sviluppo dei territori
FORUM PA PLAY: come unire sostenibilità e investimenti pubblici. Speciale FORUM PA CAMP Campania
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Da OpenCoesione 3.0 a Cap4City: ecco i progetti finanziati dal CapCoe.  Il podcast “CapCoe. La coesione riparte dalle persone”
Capacità amministrativa e coesione: il binomio vincente per lo sviluppo dei territori
FORUM PA PLAY: come unire sostenibilità e investimenti pubblici. Speciale FORUM PA CAMP Campania
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4