Se l’intelligenza artificiale fosse un’auto, i dati sarebbero il suo carburante. Questa è una semplice metafora che ci permette di comprendere a colpo d’occhio il rapporto quasi “simbiotico” che lega la tecnologia con le informazioni che la alimentano. Tuttavia, al di là dei paragoni, i dati possono essere un vero ostacolo per le grandi aziende (non solo del ramo tecnologico), le quali possono essere riluttanti ad “abbracciare” completamente l’intelligenza artificiale senza conoscere meglio i dati utilizzati per costruirla.
The Data & Trust Alliance: etichettatura dei dati per l’AI
Per cercare di trovare una soluzione un consorzio no-profit newyorkese, che riunisce diverse aziende, ha sviluppato degli standard per descrivere l’origine, la storia e gli aspetti legali relativi ai dati da utilizzare per alimentare l’Intelligenza Artificiale. The Data & Trust Alliance, ossia il consorzio in questione, ha varato degli standard che mirano a diventare un sistema di “etichettatura” per indicare dove, quando e come i dati sono stati raccolti e generati, nonché l’uso previsto e le restrizioni connesse al loro utilizzo.
Il consorzio – che riunisce alcune startup e più di venti colossi del calibro di American Express, Humana, IBM, Pfizer, UPS e Walmart – ritiene che il sistema di etichettatura dei dati sarà simile agli standard fondamentali per la sicurezza alimentare, i quali richiedono informazioni di base come la provenienza degli alimenti, chi li ha prodotti e coltivati, nonché chi li ha maneggiati durante il trasporto verso gli scaffali dei negozi. Secondo The Data & Trust Alliance, una maggiore chiarezza e maggiori informazioni sui dati utilizzati nei modelli di Intelligenza Artificiale potrebbero rafforzare la fiducia delle aziende nella tecnologia in esame.
Standardizzazione dei dati: un passo avanti per le aziende
Certo, la diffusione degli standard proposti dal consorzio non è certa e molto dipenderà dalla facilità di applicazione e automazione degli standard stessi. Ma, da che mondo e mondo, il fissare degli standard ha da sempre accelerato l’uso di ogni tecnologia importante, dall’elettricità a Internet. Perché non dovrebbe funzionare con l’Intelligenza Artificiale?
Siamo dinanzi a un passo avanti verso la gestione dei dati come asset aziendale, che è ciò che tutti i settori industriali stanno cercando di fare oggi. Per creare tale asset, tuttavia, è necessario sapere dove sono stati creati i dati, in quali circostanze, a quale scopo sono destinati e se è legale utilizzarli o meno. Cosa che è più facile a dirsi che a farsi (pur non essendo impossibile).
Le preoccupazioni legate ai dati nell’Intelligenza Artificiale generativa
I sondaggi odierni evidenziano la necessità di una maggiore fiducia nei dati e di una maggiore efficienza nella loro gestione. In un sondaggio condotto tra i direttori generali di diverse aziende americani, la maggior parte di loro ha citato le preoccupazioni relative alla provenienza dei dati come un ostacolo fondamentale all’adozione dell’Intelligenza Artificiale nelle proprie aziende.
L’iniziativa di The Data & Trust Alliance è destinata principalmente ai dati aziendali che le aziende utilizzano per creare i propri programmi di Intelligenza Artificiale nonché ai dati che possono essere inseriti selettivamente nei sistemi di Intelligenza Artificiale di aziende come Google, OpenAI e Microsoft. Come sappiamo, più accurati e affidabili sono i dati, più affidabili saranno le risposte generate dall’Intelligenza Artificiale.
Da diversi anni le aziende utilizzano l’Intelligenza Artificiale in applicazioni che vanno dalla personalizzazione delle raccomandazioni sui prodotti alla previsione di quando i motori degli aerei avranno bisogno di manutenzione. Ma l’aumento, nell’ultimo anno, della cosiddetta Intelligenza Artificiale generativa, che alimenta chatbot come il famoso ChatGPT di OpenAI, ha aumentato le preoccupazioni sull’uso e, principalmente, sull’abuso dei dati.
Questi sistemi sono in grado di generare testo e codice informatico con una fluidità simile a quella umana, ma spesso inventano cose “allucinate” a seconda dei dati a cui accedono e che assemblano. Quest’ultimo, tra le altre cose, è uno dei motivi per cui, in genere, le aziende non consentono ai propri dipendenti di utilizzare liberamente le versioni “consumer” dei chatbot. Tuttavia, diverse aziende stanno utilizzando i propri dati in progetti pilota che sfruttano le capacità generative dei sistemi di Intelligenza Artificiale per aiutare a scrivere relazioni aziendali, presentazioni e codici informatici. I dati aziendali possono provenire da diverse fonti, tra cui clienti, fornitori, dati meteorologici e di localizzazione.
L’importanza dell’origine dei dati nella gestione dell’AI
Ritornando alla tematica del consorzio, The Data & Trust Alliance ha messo su un sistema che prevede otto standard di base, tra cui l’origine, la fonte, gli aspetti legali, il tipo di dati e il metodo di generazione dei dati. Poi ci sono descrizioni più dettagliate per la maggior parte degli standard, come l’indicazione che i dati provengono dai social media o dai sensori industriali.
La documentazione dei dati può essere realizzata in una varietà di formati tecnici ampiamente utilizzati. Le aziende del consorzio americano hanno testato gli standard per migliorarli e perfezionarli, con un piano che prevede di renderli disponibili al pubblico all’inizio del 2024. L’etichettatura dei dati per tipo, data e fonte è stata fatta da singole aziende e industrie, con il consorzio che afferma che questi sono i primi standard dettagliati destinati a essere utilizzati in tutti i settori.
I vantaggi connessi all’adozione di determinati standard
I vantaggi connessi all’adozione di determinati standard sui dati da utilizzare con l’Intelligenza Artificiale derivano da una maggiore trasparenza per tutti coloro che fanno parte della “catena di fornitura” dei dati. Questo flusso di lavoro spesso inizia con la negoziazione dei contratti con le assicurazioni per l’accesso ai dati sulle richieste di rimborso e prosegue con i data scientist, gli statistici e gli economisti della start-up che costruiscono modelli predittivi per guidare il trattamento dei dati.
In ogni fase, conoscere prima i dati dovrebbe aumentare l’efficienza ed eliminare il lavoro ripetitivo, riducendo potenzialmente il tempo dedicato ai progetti sui dati fino al venti percento. Il consorzio dei dati afferma che il mercato odierno dell’Intelligenza Artificiale ha bisogno della chiarezza che gli standard di etichettatura dei dati del consorzio newyorkese possono fornire. Un aiuto alla risoluzione di alcuni dei disparati problemi di cui l’Intelligenza Artificiale è affetta.