Le interazioni vocali tra agenti umani e agenti conversazionali AI stanno aumentando in maniera significativa. Il mercato della cosiddetta Conversational AI è atteso in crescita con un CAGR (Compound annual growth rate) pari al 22% da qui al 2030.
L’evoluzione della Conversational AI
Per Conversational AI intendiamo tutto l’insieme di soluzioni che consentono di interagire con assistenti vocali e testuali (in futuro anche video) di varia natura: dall’Alexa che utilizziamo a casa, al navigatore vocale nella nostra auto, al mercato delle comunicazioni remote e automatiche di customer care (chatbot e voicebot).
Fino al 2022, queste soluzioni di AI conversazionale erano basate fondamentalmente su modelli di machine learning, che possedevano un livello di comprensione e generazione del linguaggio naturale piuttosto limitato. Ad ogni richiesta dell’utente (intent) la macchina era in grado di fornire risposte relativamente standard e statiche.
“Creatività” e “umanizzazione” delle conversazioni AI
A partire dal 2023, con l’esplosione delle soluzioni di Generative AI, abbiamo assistito ad un progressivo incremento nel livello di “Creatività” e “Umanizzazione” delle conversazioni operate da sistemi di Conversational AI.
Pur essendo le conversazioni naturali tra human e artificial agents ancora a un livello iniziale, stanno rapidamente nascendo nuove opportunità, da un lato, e nuove sfide o rischi dall’altra: quando parliamo della combinazione di voce e intelligenza artificiale generativa non sitiamo considerando solo un nuovo modo di comunicare, ma abbiamo a che fare con una caratteristica biometrica umana unica e preziosa.
L’importanza dell’analisi vocale
Attraverso l’analisi vocale è oggi possibile, infatti, risalire ad informazioni molto preziose e sensibili su ciascun individuo, quali ad esempio la provenienza etnica, la condizione emozionale dell’individuo (sentiment analysis), oppure utilizzare i marcatori vocali per effettuare un enrollment e successiva autenticazione e autorizzazione della persona all’accesso a determinati servizi (esempio accesso a informazioni bancarie, assicurative o addirittura medicali).
Attraverso un’analisi vocale adeguata è possibile, inoltre, effettuare delle analisi sullo stato di salute della persona (esempio associare una probabilità di patologie quali Covid-19, altre forme virali e addirittura alcune tipologie di forme tumorali).
Le implicazioni dietro all’adozione di AI conversazionali e come affrontarle
L’analisi conversazionale non si limita, quindi, ad intercettare lo stato emozionale della persona, ma può essere utilizzata anche per intercettare cosiddetti pattern che aiutino a individuare determinate tipologie di “situazioni di interesse”, quali ad esempio una frode in corso, oppure semplicemente gli argomenti affrontati durante una conversazione, per poi effettuare opportune operazioni di marketing o affinamento del servizio fornito all’utente.
Analogo ragionamento può essere effettuato quando andiamo ad effettuare un’analisi dei messaggi che un ipotetico utente scambia con un customer service o un agente conversazionale artificiale di varia natura: in questo caso non avremo a disposizione alcune caratteristiche come il tono della voce, ma potremmo comunque elaborare un’analisi approfondita della conversazione testuale in essere.
Ulteriori analisi potranno essere elaborate qualora andassimo ad analizzare invece una video-conversazione: in tal caso oltre ai media vocali, potremmo analizzare le espressioni visive (ad esempio facciali) che sono in grado di fornire informazioni preziose sullo stato emozionale dell’individuo e, in alcuni casi, di salute, oltre che essere adottate per meccanismi di autenticazione e autorizzazione.
Pertanto, è importante essere consapevoli delle implicazioni dietro all’adozione di queste tecnologie e come affrontarle, in termini, ad esempio, di gestione dei pregiudizi e discriminazione (bias), privacy, security, interpretabilità e molte altre implicazioni etiche.
OVON Trustmark Initiative
I principali pilastri della progettazione di soluzioni Conversational AI
Vediamo nel dettaglio quali sono i principali pillar che dovrebbero sempre essere presenti quando andiamo a progettare (o adottare) soluzioni di Conversational AI.
Fairness
I modelli di machine learning e i dati utilizzati devono minimizzare le discriminazioni o pregiudizi (bias). Questo è alla base per un progetto conversazionale affidabile (o Trustworthy).
XAI
Acronimo di Explainable AI indirizza due aspetti correlati ed estremamente importanti. Il primo è relativo alla capacità dei modelli di AI conversazionale di comprendere come funzionano, perché si comportano in determinate modalità (i.e. perché è stata fornita una certa risposta ad un utilizzatore e non un’altra) e quindi evitare, o almeno ridurre, il cosiddetto Black Box dilemma (algoritmi che si comportino come un sistema oscuro impossibile da comprendere). Il secondo aspetto indirizzabile dal concetto di XAI è relativo all’Accountability, ovvero chi sono i responsabili (umani) per ognuno dei processi e comportamenti degli agenti virtuali.
Privacy
Abbiamo già accennato come la voce sia un biomarker estremamente privato, come tale va trattato in maniera adeguata adottando tutti i meccanismi per la sua protezione e la sua eventuale conservazione. In tal senso la normativa GDPR può venirci in aiuto.
Le sfide della sicurezza e privacy nella Conversational AI
L’ultimo pillar, relativo alla privacy, apre a scenari estremamente delicati da trattare. Ad esempio, è stato dimostrato che numerosi LLM (Large Language Model che fanno uso di AI generativa) e anche i Diffusion Model (usati ad esempio per la generazione di immagini) soffrono di un problema legato all’impossibilità di “dimenticare del tutto” i dati con cui sono stati addestrati. È facile prevedere, quindi, che utilizzando software malevoli, sia possibile estrarre una parte dei dati originali con cui questi modelli sono stati addestrati: questo crea ovviamente un grosso problema di privacy perché in grado di esporre dati sensibili.
Due tecniche per minimizzare il problema di privacy appena esposto sono la minimizzazione della duplicazione dei dati in fase di training e l’uso di dati sintetici per l’addestramento dei modelli: diverse ricerche autorevoli prevedono che l’utilizzo di Synthetic Data supererà a breve l’adozione di Dati reali nell’addestramento dei modelli di AI.
I dati sintetici forniscono principalmente due benefici: il primo è quello di minimizzare il bias perché meno sensibili a una distribuzione non omogenea dei dati stessi, il secondo quello di minimizzare i problemi di privacy (trattandosi di dati non reali).
Conclusioni
Con l’incremento del mercato legato alla Conversational AI sarà utile, inoltre, progettare protocolli di standardizzazione e linee guida per l’interoperabilità e la sua scalabilità: gli agenti conversazionali artificiali saranno infatti sempre più in grado di comunicare non solo direttamente con utilizzatori umani (human agent), ma anche e soprattutto tra di loro.
Forse non ne siamo pienamente consapevoli, ma già oggi moltissime comunicazioni avvengono direttamente tra macchine e prossimamente tra agenti conversazionali, con un intervento umano minimale o spesso assente.