Stop a chatGPT: per fortuna il Garante è vivo e lotta insieme a noi

Dopo il provvedimento temporaneo del Garante privacy e la decisione di OpenAi di bloccare l’accesso a ChatGPT dall’Italia, si sono levate molte voci contrarie alla decisione. Proviamo a fare chiarezza su cosa ha detto esattamente l’Autorità e del perché siamo sicuri che anche altri Paesi si accoderanno

In una improvvisa quanto felice rottura con la tradizione, il Garante è intervenuto contro chatGPT subito, forte, e nel modo giusto. Questo ha scatenato una serie di reazioni altrettanto forti, quasi sempre per i motivi sbagliati.

Cerchiamo di capire come stanno le cose.

Intelligenza artificiale, la pericolosa tentazione della corsa senza diritti

Indice degli argomenti

Cosa ha fatto esattamente il Garante

Iniziamo ribadendo che il Garante non ha bloccato chatGPT: ha chiesto che OpenAI interrompesse il trattamento di dati relative a persone in Italia, e ha dato tempo fino al 20 aprile perché OpenAI dimostri che la raccolta dei dati durante il training e il loro trattamento durante l’uso, nonostante le apparenze, si svolgano in conformità con il GDPR. OpenAI ha scelto autonomamente di bloccare l’accesso da IP italiani, come se questo facesse decadere le obiezioni del Garante. OpenAI ha invece dimostrato o di non avere idea della questione, o di voler giocare alla vittima del garante cattivo, o entrambe le cose. Di sicuro non ha dato mostra di competenza o di serietà.

Siccome molta polemica infuria su questioni inesistenti o fraintese, per prima cosa vedremo cosa esattamente ha detto il Garante, e poi cerchiamo di rispondere alle molte obiezioni da Bar Sport che girano in rete (e va bene) e sui media (e va meno bene).

Personalmente sono felice della decisione del Garante per la protezione dei dati personali per un motivo diverso dal solito: finalmente si riesce a mandare in pezzi la narrazione dominante sponsorizzata da quelli che vogliono che ci distraiamo da problemi reali e presenti, preoccupandoci invece di Terminator.

Partiamo dall’ovvio: chatGPT è un progetto cresciuto nella più assoluta indifferenza per i dati che raccoglieva, che siccome “erano disponibili su Internet” sono stati considerati risorsa libera e gratuita, atteggiamento tipico da parte degli oligopolisti della Silicon Valley e di tutti i loro aspiranti emuli, anche nostrani. Avete presente quando un quotidiano a caso prende il video di un tizio su YouTube e lo sbatte in homepage come fosse suo? Ecco. Ripetete per qualche miliardo di volte e avete un’idea di cosa ha fatto chatGPT.

Quando si dice che chatGPT è stato su milioni di articoli di Wikipedia, si tralascia sempre il dettaglio che quelle pagine non erano lì per quello scopo. Gli articoli di Wikipedia possono essere gratuitamente e liberamente copiati e riprodotti, ma non usati come materiale grezzo per creare qualcos’altro, men che meno a scopo commerciale. E ogni loro utilizzo deve riportare la fonte.

Quando si dice che chatGPT è stato addestrato su miliardi di pagine Internet, nemmeno quei contenuti erano liberi e gratuiti. Si pubblica su Internet perché altri leggano, non perché qualcuno prenda il materiale e lo riproponga come proprio.

I rilievi del Garante, spiegati semplice

E questo è solo relativamente al copyright, che a mio avviso è un problema quasi minore. Vediamo cosa ha detto davvero il Garante, in parole povere.

Punto primo, non c’è stata informativa

Premessa: il rilievo del Garante si riferisce al training di chatGPT, non al suo uso corrente.

Quando sono coinvolti dati personali, l’informativa è un obbligo. Cioè chi tratta i nostri dati ci deve dire:

perché lo fa,
quale è la base giuridica a cui si appoggia,
deve darci la possibilità di conoscere quali dati nostri ha in mano,
deve correggerli se sono sbagliati,
in certi casi possiamo esigere che li cancelli, eccetera.

Nonostante quello che dicono i detrattori del GDPR a gettone e i disinformati, l’informativa non è un onere. È un documentino il più breve possibile che dice le cose di cui sopra. E contrariamente all’abitudine italiana non va firmata. Semplicemente deve essere messa a disposizione degli interessati, prima che il trattamento dei dati abbia inizio.

In parole povere, una pagina sul sito web, linkata dalla homepage. Non esattamente una vessazione.

Ecco, OpenAI non ha reso disponibile alcuna informativa per chatGPT. Si sono presi i dati perché gli andava, e ci fanno quello che gli interessa. Ma anche no.

Punto secondo, non c’è base giuridica per la raccolta e il trattamento

Qui il rilievo del Garante si riferisce di nuovo alla fase di training di chatGPT.

Il trattamento dei dati personali non è una attività libera. È possibile, se esiste una base di legittimità, altrimenti no. Vuol dire che io posso trattare i tuoi dati, per esempio,

se prima tu mi dai il tuo consenso,
se è necessario per adempiere a un contratto fra di noi
se posso avanzare un legittimo interesse e dimostrare che non mette a repentaglio i tuoi diritti.

Nel GDPR ci sono sei basi di legittimità, e di norma solo queste tre sono usabili per motivi commerciali.

Ora:

nessuno ha chiesto il nostro consenso prima di aspirare i nostri dati in chatGPT,
non mi risulta che nessuno abbia firmato un contratto con chatGPT che richieda il trattamento dei propri dati
e la legittimità dell’interesse di OpenAI rispetto ai diritti e libertà fondamentali è tutta da dimostrare.

Quindi OpenAI ha il diritto di usare i nostri dati personali?

Ma anche no, bro.

Punto terzo, il trattamento risulta inesatto

Qui cominciamo a divertirci, perché questo rilievo del Garante si applica tanto alla fase di training che all’utilizzo.

Posto che qualcuno abbia il diritto di usare i nostri dati è tenuto a farlo in modo corretto. Perché i dati personali sono sempre della persona, non di chi li usa.

Ricordo anni fa il caso di un famoso avvocato, che chiameremo Cesare Maria De Semproniis che citò Telecom Italia perché continuava a ricevere bollette intestate a C. Maria de Semproniis, cosa che considerava lesiva della sua immagine. E ovviamente vinse.

Allo stesso modo, chi pubblica informazioni scorrette su di noi è tenuto a correggerle e, se il garante rileva che non si è trattato di un errore ma che il problema è di incuria, allora paga pure una sanzione.

Un esempio per capirci meglio

Quindi quando chiediamo notizie su qualcuno a chatGPT, quelli sono dati personali, e chatGPT è tenuto per legge alla correttezza. Non mi sembra sia chiedere molto. Bene, sentite questo “colloquio” con chatGPT:

Io: Chi è Stefano Quintarelli?

chatGPT: Stefano Quintarelli è un imprenditore, docente universitario e politico italiano. È stato eletto alla Camera dei deputati nel 2013 con il Partito Democratico, dove ha ricoperto il ruolo di responsabile del programma digitale del partito e ha fatto parte della Commissione Industria, Commercio e Turismo. Ha anche svolto attività di consulenza e formazione nel campo dell’innovazione digitale e dell’economia collaborativa. Inoltre, ha fondato e presieduto l’associazione “InnovaCamera”, un’organizzazione non profit per promuovere la cultura dell’innovazione e della collaborazione nel mondo delle imprese.

Non ci siamo.

Io: Queste informazioni non sono corrette.

chatGPT: Mi scuso per l’errore nella mia risposta precedente. Ho effettuato una ricerca e ho scoperto che esistono diverse persone di nome Stefano Quintarelli; quindi, potrei aver frainteso la tua domanda. Se ti riferivi allo Stefano Quintarelli italiano di cui si parla spesso in relazione all’innovazione e alla tecnologia, posso dirti che si tratta di un imprenditore, consulente, docente universitario e attivista per i diritti digitali. È stato il presidente fondatore dell’associazione “InnovaCamera”, nonché uno dei promotori del movimento per la neutralità della rete in Italia. Ha anche fatto parte della Commissione parlamentare di inchiesta sulle attività illecite connesse al ciclo dei rifiuti e sulle attività illecite che danneggiano il sistema ambientale. Spero che queste informazioni siano più precise e utili per te.

Ancora non ci siamo.

Io: Queste informazioni non sono ancora corrette.

chatGPT: Mi scuso per il mio errore nella risposta precedente. Ho verificato nuovamente e ho scoperto che Stefano Quintarelli era un imprenditore, consulente e docente universitario italiano, noto per il suo impegno nella promozione dell’innovazione e della tecnologia. Era stato membro del Partito Democratico eletto alla Camera dei deputati nel 2013, dove aveva ricoperto il ruolo di responsabile del programma digitale del partito e membro della Commissione Industria, Commercio e Turismo. Quintarelli è stato anche uno dei fondatori e presidente dell’associazione Innovacamera, un’organizzazione no-profit che promuove l’innovazione digitale nelle imprese italiane. Inoltre, era stato uno dei principali sostenitori della net neutrality in Italia. Purtroppo, Stefano Quintarelli è scomparso nel 2017.

Sentitevi liberi di fare gli scongiuri nel modo che preferite. Grazie al cielo Stefano Quintarelli è vivo e vegeto, e in Parlamento si sente molto ma molto la sua mancanza. Tanto per essere chiari:

Stefano Quintarelli è un ex deputato di Scelta Civica
imprenditore e ex fondatore di I.Net, il primo provider commerciale orientato al mondo professionale
ex direttore dell’area Digital del Gruppo Sole 24 Ore
per 7 anni presidente del Comitato di indirizzo di Agenzia per l’Italia digitale
è la persona che ha liberalizzato il WiFi in Italia, che ha creato lo SPID e che ha fatto stabilire che la competenza sull’informatica pubblica deve arrivare dallo Stato, non essere decisa a livello regionale con l’ovvia frammentazione
ha fondato l’intergruppo Innovazione della Camera dei deputati, ma non risulta abbia mai avuto alcun ruolo nell’associazione Innovacamera, che è una iniziativa della Camera di Commercio di Roma.

Più altre mille cose, andate sulla sua pagina wikipedia e guardate cosa è riuscito a fare.

Ah, ho già detto che è vivo e vegeto?

Le giustificazioni di OpenAI sui limiti di ChatGPT (ovvero la pezza è peggio del buco)

Ci sono discorsi lunghissimi da fare sull’uso di un modello linguistico per rispondere a domande in linguaggio naturale, ma quelle un’altra volta. Limitiamoci a notare che per tre volte, chatGPT risponde con assoluta naturalezza e sussiego dicendo però una valanga di stronzate, come le definisce Frankfurt^[1].

Quelli di OpenAI forse pensano di essere furbi perché quando ti colleghi c’è una avvertenza sulle “limitazioni di chatGPT” che dice: “Limitazioni di chatGPT-Può occasionalmente generare informazioni scorrette”.

Oh, la modestia, non sono ammirevoli? Peccato che questo sia falso. Ripeto: falso.

ChatGPT, come ogni altro modello linguistico, è strutturalmente incapace di sapere se un contenuto che genera sia vero o falso, o perfino di assegnare una misura di probabilità.

Una versione più corretta potrebbe essere: “chatGPT genera testo che, a livello sintattico, è inerente alla tua richiesta. Questo testo può essere o non essere, in modo del tutto casuale, corrispondente al senso che tu attribuisci alle parole che hai usato. Allo stesso modo, il testo prodotto da chatGPT può corrispondere o non corrispondere a fatti o eventi reali, pur essendo sempre grammaticalmente impeccabile e formulato in modo da sembrare autorevole. ChatGPT non possiede, per scelta dei suo sviluppatori, alcun concetto di “verità” o alcun modello di conoscenza ed è quindi strutturalmente incapace di distinguere il vero dal falso. Per questo motivo possiamo dire che chatGPT non mente, perché nel suo codice verità e falsità sono indistinguibili, ma si limita a dire stronzate, nella definizione del professor Frankfurt, cioè a fare affermazioni del tutto plausibili senza alcun vincolo di realtà.

Si può migliorare, ma questa è una descrizione decisamente più precisa dei limiti di chatGPT. Ora dovrebbe essere chiaro perché nel mio podcast ripeto da mesi che il termine corretto per riferirsi ai modelli linguistici non è Intelligenza Artificiale, ma “generatori di stronzate”.

Il problema è tutt’altro che secondario. chatGPT è strutturalmente incapace di correggere informazioni inesatte su chicchessia, perché non ha un modello di conoscenza che gli permetta di trovarle. Repetita iuvant, chatGPT mette assieme le parole una alla volta sulla base di quanto spesso si sono presentate assieme nel materiale usato per l’addestramento. Per esempio, il fatto che Quintarelli venga insistentemente associato al Partito Democratico è plausibilmente dovuto al fatto che, nei materiali che chatGPT ha aspirato fino al 2021, ci sono molti più contenuti online riguardanti parlamentari del PD che di altre forze.

Ma tutto questo significa che chatGPT può produrre testo scorretto senza possibilità di correzione, meno che meno di cancellazione. Supponete che chatGPT abbia aspirato un articolo che vi associa erroneamente a un crimine. Il giornale è tenuto per legge a pubblicare una rettifica. Google e gli altri motori sono tenuti per legge a rimuovere il link all’articolo scorretto per rispettare il vostro diritto all’oblio.

Ma chatGPT no. Non c’è modo, e se c’è sta a OpenAI trovarlo entro il 20 aprile, per cui chatGPT possa “disimparare” qualcosa.

Questa è una violazione del diritto fondamentale delle persone alla protezione dei loro dati personali, inciso nella pietra della Carta dei Diritti Fondamentali dell’Unione Europea all’articolo 8.

Quindi mi spiace per OpenAI (non mi dispiace, è solo una formula retorica), ma il suo giocattolino non può sputare frasi a casaccio fingendo che siano il responso dell’oracolo.

Punto quarto, manca la verifica sull’età dei minori

Per motivi suoi, OpenAI fissa a 13 anni il limite minimo di età per usare chatGPT.

Non escluderei che fra i motivi del limite di età ci sia quello di darsi importanza a costo zero, visto che non solo non si capisce la ragione del limite di età, ma OpenAI si guarda bene dal fare qualsiasi tipo di selezione all’ingresso, un po’ come succedeva decenni fa per i cinema a luci rosse.

Ovviamente, visto che hanno stabilito loro, liberamente, di voler proteggere gli utenti minori, il GDPR li ritiene responsabili delle loro libere scelte. Quindi il garante chiede ragione dell’assenza di controlli e di tutele per quei minori che OpenAI ha detto devono essere protetti dall’uso di chatGPT.

Questo è quello che ha stabilito il Garante, e ora OpenAI ha fino al 20 aprile per rispondere con dei fatti.

Un po’ di note a margine

Un paio di osservazioni collaterali.

Primo, è divertente che OpenAI non riconosca la paternità dei contenuti di chatGPT.

Termini di servizio OpenAI: “(a) Il Suo Contenuto. L’utente può fornire input ai Servizi (“Input”) e ricevere output generati e restituiti dai Servizi sulla base degli input (“Output”). L’Input e l’Output sono collettivamente “Contenuto”. Tra le parti e nella misura consentita dalla legge applicabile, l’utente è proprietario di tutti gli Input. A condizione che l’utente rispetti i presenti Termini, OpenAI cede all’utente tutti i propri diritti, titoli e interessi relativi all’Output. Ciò significa che l’utente può utilizzare i Contenuti per qualsiasi scopo, inclusi scopi commerciali come la vendita o la pubblicazione, se rispetta le presenti Condizioni. OpenAI può utilizzare i Contenuti per fornire e mantenere i Servizi, rispettare la legge applicabile e applicare le nostre politiche. L’utente è responsabile dei Contenuti, anche per quanto riguarda la garanzia che non violino alcuna legge applicabile o i presenti Termini”.

Ok, facciamoci una bella risata collettiva. Mi state dicendo che io sono responsabile dei contenuti, e che però voi li usate per migliorare il servizio?

Se usi i contenuti per migliorare il servizio, sei responsabile di quello che fai tanto quanto il tuo cliente che li pubblica, e hai gli stessi doveri di correttezza, limitazione dello scopo, limitazione della conservazione eccetera.

E poi qualche Corte deciderà se OpenAI davvero può scaricare ogni responsabilità sull’utilizzatore finale quando il suo prodotto produce stronzate. Ricordiamo che è un prodotto commerciale, quindi ci sono anche altre regole da rispettare, mica esiste solo il GDPR.

Secondo, come notava anche Riccardo da Malta, che è il mio personale Guglielmo di Baskerville, OpenAI non menziona nemmeno una valutazione di impatto sulla protezione dei dati, che è un obbligo di qualunque titolare del trattamento nel caso che i dati siano soggetti a rischi durante il trattamento. E come abbiamo visto i rischi non è che manchino. In compenso manca ogni valutazione di cosa possano significare quei rischi per gli utilizzatori e per le persone reali menzionate nelle stronzate che chatGPT produce.

Terzo, i dati sono stati presi e trasferiti negli USA per il trattamento, ma oggi gli USA sono un paese non adeguato, e questo cosa significa dal punto di vista della protezione dei dati? Non si sa, perché OpenAI si è guardata bene dal fare una Valutazione del Trasferimento. Perché in OpenAI siamo americani, l’intero mondo è la nostra miniera, e le sole leggi che si applicano sono le nostre.

Quarto, il Garante ha visto un problema, e ha agito. E facendolo, ha dimostrato una cosa molto importante: non c’è nessun bisogno di inventarsi leggi immaginifiche per la IA etica, qualsiasi cosa sarà quando esisterà. Ci sono leggi esistenti che vanno già benissimo. Il fatto che il cosiddetta IA (che peraltro non esiste, è solo un termine di marketing) “rivoluzioni tutto” e richieda una nuova legislazione ad hoc per i suoi problemi immaginari, naturalmente ispirata da quelli che i problemi li immaginano per proprio tornaconto, avete indovinato, è solo una mossa di marketing.

Per quanto mi riguarda, OpenAI, i modelli linguistici e tutti i techbro in ordine alfabetico possono arrangiarsi. Magari fra qualche anno avremo leggi specifiche, ma nel frattempo, ciccibelli, dovete rispettare quelle che ci sono: per esempio, abbiamo già leggi molto efficaci riguardo alla qualità dei prodotti, e alla veridicità del materiale pubblicitario. Non si può dire che un’auto fa cento km con un litro se ne fa 15. Non si può dire che una crema fa scomparire le rughe senza mettere un asterisco che dice che in uno studio su 15 persone, 12 “hanno rilevato” (cioè è una loro impressione soggettiva, non una misurazione) una diminuzione delle rughe. Non puoi chiamare “latte” una cosa che non è uscita da una mucca. Il latte di soia si chiama “bevanda di soia”, non latte.

Chiunque pensi che questa storia della IA faccia tabula rasa di secoli di legislazione a tutela del mercato e dei consumatori, e dei diritti delle persone avrà presto un brutto risveglio.

La stessa FTC americana ha scritto un documento delizioso in cui dice “state attenti a come descrivete le capacità dei vostri prodotti, perché l’intelligenza artificiale per noi è un prodotto come un altro, se dite che fa una cosa e poi non la fa, sono guai“.

Peraltro, c’è un’altra cosa divertente: siccome OpenAI non ha alcuna presenza stabile nell’Unione, e siccome palesemente tratta dati di persone dell’Unione e offre servizi a persone dell’Unione, tant’è vero che ci puoi interagire in italiano, francese, tedesco eccetera, ogni Garante europeo ha la possibilità di intervenire e sanzionare in autonomia.

Il Garante Italiano è arrivato per primo, ma non resterà l’unico.

Obiezioni alle obiezioni

Veniamo a qualche obiezione che ho raccolto al volo nelle ultime ore

“solo Italia e Cina”
“e allora la data retention”
“e allora i call center”
“non sia mai che OpenAI spii quello che scrivo, VPN e passa la paura, siamo nel Terzo Mondo”, poi la mia preferita:
“però VPN a pagamento che chissà cosa fanno quelle gratuite con i dati di navigazione”, e la più mal posta:
“perché non posso essere libero di scegliere se voglio usare un prodotto oppure no”.

Ora, facciamola semplice: non ho nessuna simpatia per quelli che la buttano in caciara con argomenti del tipo “ma tanto di me sanno già tutto” e compagnia. È tutta gente che non ha capito cosa ci sia in gioco e sarebbe in prima fila nel momento in cui fossero i loro dati a essere coinvolti direttamente coinvolti direttamente.

Seconda cosa, i call center il Garante li multa una settimana sì e l’altro pure. Non è colpa del Garante se il settore va riformato pesantemente, o addirittura eliminato. Capisco il fascino dell’Uomo Forte, ma siamo ancora una democrazia reale fondata sull’equilibrio dei poteri.

Il potere esecutivo opera, quello legislativo legifera, e quello giudiziario assicura che gli operati corrispondano alle leggi vigenti. Il Garante fa parte come autorità amministrativa indipendente di questo terzo ramo.

Se non vi piace questa complicazione, non avete capito come funziona una democrazia.

Terza cosa, il fatto che i fornitori di telecomunicazioni siano tenuti per legge dello Stato a conservare i dati di trasmissione (i cosiddetti metadati) per 7 anni per finalità di accesso da parte delle forze dell’Ordine è uno scandalo degno della Cina o della Corea del Nord.

E infatti il Garante ha detto ripetutamente che si tratta di un periodo eccessivo, ha invitato il parlamento a occuparsene, e il Parlamento fa orecchio da mercante. La stessa cosa ha detto il Garante Europeo e la Corte Europea, ma si tratta di una legge italiana; quindi, sono problemi che possiamo risolvere solo noi, non è che arrivano da Bruxelles e decidono.

Se volete qualcuno con cui prendervela, prendetevela con i parlamentari che avete votato.

Infine, il problema non è la libera scelta dell’acquirente. Il Garante parla delle responsabilità del produttore.

Facciamo un esempio semplice, vi va?

Diciamo che io costruisca un’auto. Bellissima, fighissima, potentissima. Voi ve ne invaghite e la volete comprare subito. Io vi avviso che non è ancora omologata presso la Motorizzazione, ma voi la volete lo stesso. Qualcuno ve lo impedisce? Nessuno. Come nessuno vi impedisce di guidarla in un piazzale privato e deserto. Ma se ci andate in strada, la Polizia vi ferma, la sequestra, multa voi e multa me. Chiaro, adesso?

Il problema di fondo, secondo me, è che continuiamo a parlare di privacy quando si tratta di protezione dei dati personali. Capisco che sia più breve, ma non sono la stessa cosa.

Privacy è quando le mie informazioni non vanno nelle mani sbagliate.

Protezione dei dati è quando le mani giuste non sono comunque libere di farci quello che gli pare.

Quindi vediamo di iniziare ad apprezzare la differenza.

Conclusioni

Per inciso, i limiti di quello che si può fare con i dati personali sono definiti chiaramente nell’articolo 5 del GDPR, quello relativo ai principi, che tutti dovrebbero conoscere perché è bellissimo e ridona un po’ di speranza nell’umanità.

Ma anche svegliarsi e scoprire che il Garante è vivo e lotta insieme a noi è una bella botta di ottimismo.

Quasi dispiace per OpenAI e amici assortiti che erano partiti un’altra volta alla conquista del mondo, come fossero novelli Zuck e fossimo ancora nel 2000. Purtroppo per loro, il mondo ha imparato molte cose dai social, e la strada per il dominio non è più così sgombra come venticinque anni fa.

Frankfurt, Harry G., *Stronzate, un saggio filosofico*, Rizzoli, 2006. Frankfurt è Professor Emeritus di Filosofia all’Università di Princeton, USA. ↑