Una delle conseguenze dell’inarrestabile crescita della capacità computazionale delle macchine e del volume di dati è l’impiego di dati e macchine per effettuare operazioni tradizionalmente svolte dall’uomo, quali scegliere, decidere, giudicare. Quanto più cresce il volume dei dati e quanto più aumentano le prestazioni delle macchine, tanto più questa “invasione di campo” nel territorio dominato dall’uomo si rende evidente e induce da parte dell’uomo reazioni, che si concretizzano in regole e, prima ancora, in condotte di tipo etico-comportamentale sull’utilizzo delle macchine.
Regolare l’AI, il nodo delle definizioni dopo la proposta della Commissione UE
Disciplinare le decisioni automatizzate
È molto importante riflettere sulla portata della reazione dell’uomo davanti al progresso tecnologico, prima che esso si manifesti, perché potremmo correre il rischio di essere sopraffatti dalla novità e assumere atteggiamenti pregiudiziali, che potrebbero tradursi in un freno all’innovazione tecnologica. La delega dell’uomo alla macchina per molti processi decisionali è oggi concretamente possibile; e se lo è già oggi, lo sarà a maggior ragione in futuro. Non si tratta più di ipotizzare come saranno in futuro le decisioni assunte dalla macchina, ma di intervenire operativamente per disciplinarle. Siamo già oggi nel futuro, e dobbiamo disciplinare concretamente il modo in cui la macchina può decidere al posto dell’uomo, spesso in piena autonomia.
La natura dell’oggetto
Innanzitutto, la prima osservazione da fare è che quando la decisione si automatizza, non assistiamo soltanto a un cambiamento del soggetto decisore, dall’uomo alla macchina, ma la prima cosa che cambia è la natura dell’oggetto: una decisione assunta da una macchina è un “oggetto” concettualmente diverso da una decisione assunta dall’uomo. Non è un tema nuovo, e ci sono già molti esempi concreti di questa delega decisionale. Ciò che oggi allarma è la quantità di situazioni, per le quali ancora fino a poco tempo fa l’approccio umano alla decisione era sufficiente, e nelle quali invece quello automatizzato sembra essere destinato a prevalere.
Da un quarto di secolo, ormai, il motore di ricerca ha sostituito la tradizionale operazione di catalogazione delle informazioni svolta dall’uomo con archivi e biblioteche, e ha cambiato il modo in cui l’informazione stessa è prodotta, già pronta per essere facilmente indicizzata ed entrare nel circuito globale della conoscenza, sovvertendo interi mercati come quello dell’editoria.
Da una quindicina di anni i social network e i servizi di messagistica hanno sostituito il modo in cui ci si cerca e si comunica tra persone, sollevando ognuno di noi dall’onere di aggiornare rubriche o consultare elenchi telefonici pubblici, e generando un impatto senza precedenti in uno dei settori economici più “tecnologici” come le telecomunicazioni, che ancora non si è del tutto esaurito.
Da qualche anno, poi, l’impiego di algoritmi di intelligenza artificiale è entrato, ancor più intimamente di quanto non abbiano già fatto i motori di ricerca e le social network, nel corpus di informazioni generate e pubblicamente disponibili, per spacchettarle e ricombinarle in varie forme multimediali (testi, voce, immagini, video) in modo da farle apparire verosimili e indistinguibili da quelle create (assai più lentamente) da un uomo.
L’avvento dell’IA generativa e le sue conseguenze
Tutto ciò che è già scritto può essere agevolmente riscritto in modo diverso, e mettendo insieme diverse fonti, da una intelligenza artificiale “generativa” e precedentemente addestrata a questa ricombinazione. È il concetto alla base della chatGPT (dall’acronimo, appunto, Generative Pretrained Transformer), ma anche degli altri algoritmi di intelligenza artificiale generativa che operano su immagini o suoni esistenti per produrne di nuovi, mai prima sperimentati. È facile pronosticare che, come già successo per altre tecnologie, anche queste innovazioni modificheranno il nostro modo di utilizzare l’informazione, ma provocheranno anche grandi turbolenze. E l’aspetto più turbolento e più difficile da disciplinare è proprio l’aspetto oggettivo: il modo in cui queste nuove informazioni è rigenerato non coincide con il modo in cui noi uomini creiamo informazione. L’impiego dei verbi non è casuale: la prima comparsa di una informazione è frutto di un atto creativo dell’uomo, del quale egli è responsabile (sia quando essa è corretta, e l’uomo può definirsi l’artefice della teoria che aiuta a risolvere un problema, sia quando essa è sbagliata, o risulta offensiva o dannosa, innescando responsabilità di natura civile o penale), la ricombinazione di informazioni operata da algoritmi non ha nulla di creativo ed è invece il frutto di un intervento combinatorio di disaggregazione e riaggregazione su ciò che già esiste, in modo che ci appaia diverso e “nuovo”. Questa differenza oggettiva crea un’aberrazione: noi cerchiamo di individuare responsabilità nella ricombinazione di informazioni, l’algoritmo può invece darci soltanto efficienza.
Le sfide all’orizzonte di giuristi e tecnologi
Come disciplinare l’impiego di queste tecnologie quando il testo (o l’immagine, il video, o il suono) riprodotto è il più verosimile da un punto di vista probabilistico (ossia, secondo la metrica impiegata dall’algoritmo di rigenerazione), ma non è detto che sia quello in grado di non recare danno a un essere umano (per citare la famosa prima legge della robotica di Asimov)? Rispondere a questa domanda sarà il compito di giuristi e tecnologi dei prossimi anni, e il loro lavoro non è affatto semplice. Ciò che rende difficile la regolamentazione dell’intelligenza artificiale è che non abbiamo precedenti a cui riferirci, e solo limitatamente possiamo procedere per analogia. Esistono però già delle importanti decisioni delle Corti che possono essere richiamate e un corpus di ricerche scientifiche, su cui occorre riflettere, per indirizzare l’opera del regolatore (latu sensu) in modo da renderla efficace e da limitare il rischio (invero piuttosto alto) che il prezzo della tutela risulti talmente elevato da vanificare il beneficio stesso della tutela.
Percorrere la strada della responsabilità: l’esempio della sentenza Costeja
Percorrere la strada della responsabilità per regolamentare l’impiego delle tecnologie nel recente passato non ha prodotto i frutti desiderati. Ad esempio, nella celebre sentenza Costeja, datata 2014, della Corte di Giustizia Europea, sulle responsabilità del motore di ricerca (la tecnologia che più di ogni altra i regolatori di tutto il mondo hanno provato a disciplinare negli ultimi anni) si legge che è pur vero che “l’attività di un motore di ricerca consistente nel trovare informazioni pubblicate o inserite da terzi su Internet, nell’indicizzarle in modo automatico, nel memorizzarle temporaneamente e, infine, nel metterle a disposizione degli utenti di Internet secondo un determinato ordine di preferenza, deve essere qualificata come trattamento di dati personali”, ma che la base giuridica applicabile a questo trattamento è il legittimo interesse del titolare – l’allora lettera f) dell’art. 7 della Direttiva 95/46 – e che (in sintesi) il bilanciamento degli interessi contrapposti del titolare e dell’interessato è raggiunto obbligando il motore di ricerca a “sopprimere dall’elenco di risultati che appare a seguito di una ricerca effettuata a partire dal nome di una persona i link verso pagine web pubblicate da terzi e contenenti informazioni relative a questa persona, anche nel caso in cui tale nome o tali informazioni non vengano previamente o simultaneamente cancellati dalle pagine web di cui trattasi, e ciò eventualmente anche quando la loro pubblicazione su tali pagine web sia di per sé lecita”.
Letta oggi, a dieci anni di distanza, questa sentenza ci dice che il giudice, intervenuto quando ormai la diffusione del servizio era diventata planetaria, non ha potuto modificare la sostanza dell’algoritmo, ovvero la modalità di realizzazione del ranking da parte del motore di ricerca, né fondare la raccolta del dato su un più stringente presupposto giuridico (quale, ad esempio, il consenso degli interessati, che risultava e risulta operativamente impraticabile), e si è limitato a interventi di tutela ex-post, che non incidono sul funzionamento più intimo dell’algoritmo pagerank, ma che mitigano le conseguenze indesiderate del funzionamento dello stesso algoritmo solo quando queste si manifestano nei confronti del singolo, e solo dopo che questo sia eventualmente intervenuto attraverso una richiesta di delisting. Detto più esplicitamente, se il diritto chiede conto troppo tardi alla tecnologia sugli aspetti di responsabilità (ad esempio, in materia di trattamento di dati personali, ma la questione è di carattere più generale), il risultato a cui il diritto stesso perviene (ci stiamo infatti riferendo a una sentenza della Corte di Giustizia e non a una scelta del progettista) è una sostanziale deresponsabilizzazione della tecnologia, fatta salva, nella migliore delle ipotesi, la possibilità di invocare una lieve responsabilità ex-post del soggetto economico che realizza la tecnologia, consistente non nell’evitare che l’esposizione si manifesti ex-ante, cosa praticamente impossibile, ma nell’introdurre ex-post funzioni tecnologiche, non collegate al funzionamento della tecnologia originaria (che non viene alterata dall’intervento del diritto), che consentano di mitigare tale esposizione quando essa si è manifestata (come detto, spesso ormai tardi).
La domanda di pronuncia pregiudiziale proposta alla Corte di Giustizia Europea dal Conseil d’État
Non meglio le cose sono andate nel 2019, quando la domanda di pronuncia pregiudiziale proposta alla Corte di Giustizia Europea dal Conseil d’État (Consiglio di Stato, Francia) ha riguardato la responsabilità, sempre dei motori di ricerca, nell’impiego dei dati cosiddetti sensibili (quelli il cui uso è oggi disciplinato dall’art. 9 del GDPR) nell’ambito del processo di indicizzazione dei contenuti presenti sul web. Nella altrettanto celebre sentenza contro la Commission nationale de l’informatique et des libertés (CNIL) il giudice ha sostenuto infatti che “i divieti o le restrizioni riguardanti il trattamento di categorie particolari di dati personali … si applicano … anche al gestore di un motore di ricerca nell’ambito delle sue responsabilità, competenze e possibilità”, ma soltanto “in occasione di una verifica compiuta da tale gestore, sotto il controllo delle autorità nazionali competenti, a seguito di una richiesta presentata dalla persona interessata”. Cioè, detto diversamente, il gestore di un motore di ricerca è responsabile non del fatto che dati sensibili compaiono su una pagina Internet pubblicata da terzi (circostanza rispetto alla quale il giudice ha deciso che non sussiste da parte del motore di ricerca alcuna responsabilità), ma semplicemente del delisting di tali dati (come avviene per qualsiasi dato personale, non per forza sensibile, per effetto della sentenza Costeja) e, cosa più importante, solo dopo che la natura sensibile del dato sia stata accertata da una autorità competente o segnalata dall’interessato stesso. Ancora una volta, posta nei termini più radicali, la questione della responsabilità del motore di ricerca sull’impiego di dati sensibili ha prodotto il risultato giuridico che non soltanto la tecnologia è sostanzialmente deresponsabilizzata, ma soprattutto che il “dato sensibile” trattato nel web perde il suo valore assoluto per lasciare lo spazio a una interpretazione relativa: il dato “diventa” sensibile, giacché in origine esso lo è per alcuni (il sito web fonte) e non per altri (il motore di ricerca).
Mentre, dunque, prima della sentenza della Corte di Giustizia Europea del 2014 era lecito chiedersi se si potesse scegliere di essere indicizzati sul web, la conseguenza della sentenza è che sul web si è indicizzati per default, senza scelta, salvo poter chieder di essere de-indicizzati in un momento successivo. E mentre prima della sentenza del 2019 ci si poteva chiedere se un nostro dato fosse sensibile tout court, dopo la sentenza il nostro dato, se è trattato sul web, diventa sensibile in ragione di chi lo tratta. Una evidente eterogenesi dei fini, una riduzione della portata della tutela, contro le intenzioni stesse di chi ha invocato l’intervento della Corte, da cui non si può più tornare indietro. La tecnologia, dispiegando la sua forza, ha indotto un significativo arretramento dei principi giuridici e ha limitato definitivamente i margini di ogni possibile futuro intervento regolatorio.
Gli elementi di rilievo di questi precedenti
Soffermarsi su questi precedenti che riguardano il funzionamento dei motori di ricerca è estremamente utile nel contesto del dibattito attuale sull’intelligenza artificiale e su chatGPT. L’azione degli algoritmi generativi è infatti una sorta di evoluzione del processo di indicizzazione svolto dai crawler dei motori di ricerca, con la differenza (non di poco conto) che mentre i crawler non considerano la semantica del contenuto indicizzato, limitandosi a valutarne il rank sulla base di una metrica di rilevanza, gli algoritmi generativi entrano più decisamente nella semantica del contenuto dell’informazione analizzata, destrutturandola in modo da desumerne ogni possibile pattern, che potrà essere successivamente impiegato come schema di riferimento per quell’operazione di ricomposizione di testi e immagini che ci appaiono in effetti così realistici. Sulla scorta di questi precedenti esiste il concreto rischio che a porre in termini radicali la questione della responsabilità nell’impiego di algoritmi di intelligenza artificiale generativi, come chat GPT, si possa produrre l’indesiderato effetto di far retrocedere la portata di altri istituti previsti dall’ordinamento attuale, che potrebbero venir fatti salvi formalmente, eppure svuotati di senso.
Intervenire sull’efficienza degli algoritmi
C’è, non ancora sperimentata, una forma di regolamentazione alternativa che non affronta direttamente (e frontalmente) gli aspetti di responsabilità dello sviluppatore (con i rischi di effetti indesiderati a cui si è accennato), ma che interviene sull’efficienza di questi algoritmi, che possono essere “rallentati”, se vi è un interesse pubblico a farlo, in modo che i loro risultati non sfuggano di mano ai loro stessi progettisti. L’efficienza è un parametro misurabile e l’approccio quantitativo è l’unico che può essere incorporato nella progettazione di un algoritmo. Intervenendo sull’efficienza di questi algoritmi (purché l’intervento sia ben calibrato) si possono ottenere dallo stesso algoritmo risultati meno offensivi, meno dannosi e più “giusti” secondo i valori dell’uomo.
La scelta degli embeddings
Qui lo spazio per un intervento regolatorio è molto ampio ed è solo una questione di creatività. Il problema degli algoritmi non è la loro opacità (non c’è niente di stregonesco nel risultato di un modello matematico, purché ovviamente si disponga delle competenze necessarie per interpretare tali risultati), ma la loro unilateralità. Questi algoritmi si basano su costrutti matematici, che sono la causa delle possibili esposizioni, interamente decisi dagli sviluppatori, senza un adeguato dibattito pubblico. Ad esempio, nel caso di chatGPT, il cuore del funzionamento dell’algoritmo è costituito dai cosiddetti embeddings, ossia dei vettori di significati associati a ogni parola che nel loro complesso restituiscono una descrizione quantitativa della semantica di una sequenza di parole e del contesto in cui queste parole sono impiegate. In estrema sintesi, l’algoritmo impiegato da chatGPT è una rete neurale che riceve in ingresso gli embeddings di un testo e restituisce in uscita gli embeddings del testo più verosimilmente associato a quell’input, tenuto conto del corpus utilizzato per il training della rete. Scegliere gli embeddings determina un maggiore o minore grado di esposizione a livello individuale. Idealmente, la scelta degli embeddings dovrebbe essere rimessa a un pubblico dibattito e non demandata agli stessi soggetti che sviluppano la rete neurale.
Due contrapposti interessi
La scelta degli embeddings e quella dei pesi della rete neurale rispondono a due contrapposti interessi, di accuratezza dei risultati (nella scelta dei pesi della rete neurale) perseguita dagli sviluppatori e di tutela (nella scelta dei significati degli embeddings) perseguita dalla collettività nel suo insieme, che non sono adeguatamente rappresentati nella attuale fase di progetto. Eppure, dalla scelta degli embeddings potrebbe derivare una significativa minore incidenza di casi di esposizione indesiderata.
Se vogliamo algoritmi di cui poterci fidare, tutti questi interessi individuali e collettivi in conflitto devono essere debitamente considerati nelle distinte fasi di progetto, che dovrebbero essere allocate a soggetti diversi. Sono molte le aree in cui questo schema di regolazione dell’efficienza degli algoritmi, che potremmo definire trust engineering, può trovare applicazione. Estendendo lo sguardo oltre la questione contingente di chatGPT di cui oggi tutti parlano, ci si potrebbe chiedere chi debba decidere il significato da attribuire alle coorti (cohorts) nella tecnologia sandbox che è candidata a rimpiazzare i cookie nei tracciamenti sul web, chi le tecniche di anonimizzazione o pseudonimizzazione dei dati da adottare nei casi di data sharing previsti nella strategia europea sui dati. In ognuno di questi scenari ci sono interessi contrapposti che vanno adeguatamente enucleati e debitamente considerati in fase di progetto. Essi non possono essere rappresentati dal solo soggetto sviluppatore.
L’inadeguatezza dell’approccio unilaterale
Un approccio unilaterale alla progettazione delle tecnologie, come è stato fino a oggi, non è più adatto allo sviluppo di algoritmi di intelligenza artificiale. Il solo sguardo del progettista potrebbe non considerare adeguatamente i vari interessi contrapposti, e non scongiurare eventuali conseguenze dannose per l’uomo che derivano dall’impiego della tecnologia. È celebre a questo proposito la citazione di Norbert Wiener, uno dei padri fondatori dell’intelligenza artificiale, il quale sin dagli anni ’60 ammoniva che se, per raggiungere i nostri scopi, usiamo un agente meccanico con il cui funzionamento non possiamo interferire in modo efficace, faremmo meglio ad essere abbastanza sicuri che lo scopo inserito nella macchina sia lo scopo che desideriamo veramente. L’effetto re Mida con l’intelligenza artificiale è sempre in agguato e lo sguardo unilaterale del progettista da solo non sempre è in grado di trasformare gli obiettivi di tutela (a cui magari egli stesso crede) in comandi espliciti da rivolgere efficacemente a una macchina.
Conclusioni
Regolare gli algoritmi per via di efficienza non è dunque meno difficile della regolazione per via di responsabilità. Noi oggi non conosciamo pienamente i nostri obiettivi di tutela.
Li intuiamo, spesso li riconduciamo a categorie esistenti (la trasparenza, l’esercizio dei diritti, il controllo umano), ma tanto non sempre basta per orientare il funzionamento degli algoritmi, in particolare quando questi diventano molto complessi, come è il caso di chatGPT. E nel richiamare gli sviluppatori alle loro responsabilità, senza una adeguata formulazione tecnologica e quantitativa degli obiettivi di tutela, corriamo il serio rischio di affievolire la portata di alcuni consolidati istituti, come il caso delle sentenze della Corte di Giustizia Europea qui richiamate ci ha mostrato.
La strada della regolamentazione dell’intelligenza artificiale è ancora molto lunga, ma va percorsa tutta. I primi a beneficiare di una regolamentazione che sottragga l’intelligenza artificiale dall’alone (talora indebito) di opacità che la circonda saranno gli sviluppatori. Questa vicenda di chatGPT è soltanto l’inizio.
Disclaimer. Le opinioni espresse in questo articolo sono unicamente dell’autore. Per la loro formulazione non si è fatto uso di chat GPT.