Il crescente interesse delle Big Tech per i nostri dati sensibili, in particolare – ultimamente – quelli sanitari, pone una serie di interrogativi di varia natura: desta preoccupazione, in primis, l’utilizzo che può essere fatto di quest dati con riferimento, in particolare, alle modalità di sviluppo e addestramento degli algoritmi volti al trattare dati sanitari per ottimizzare i processi di cure e organizzare i comportamenti individuali in modo da renderli più efficaci.
Il binomio web-sanità
Il binomio colossi del web-sanità non è certo nuovo: da diversi anni ormai, i giganti del web s’interessano al mondo della ricerca in ambito sanitario. Così, già nel 2013, Google creava Calico, un’azienda con lo scopo di capire il processo biologico d’invecchiamento e sviluppare terapie per permettere alle persone di vivere più a lungo. Nel 2014, sempre Google, lanciava le sue lenti a contatto connesse capaci di controllare il livello di glicemia, non riscontrando però il successo sperato.
Non solo Google, lo scorso anno anche Amazon lanciava “Amazon Comprehend Medical” progettato per sfruttare i dati medici di milioni di pazienti (come prescrizioni, note mediche, rapporti di patologia o persino radio). Il tutto con lo scopo di estrarre, da queste fonti disparate, gli elementi chiave necessari per la diagnosi o la scelta di dosi e farmaci. Sulla stessa linea da diversi anni Apple sta sviluppando “Health Kit“, una piattaforma di condivisione dati tra gli ospedali, mediante applicazioni dagli stessi utilizzati, con i centri di ricerca che sarà utilizzata per la ricostruzione dell’anamnesi dei pazienti.
L’oscuro progetto Nightingale di Google
Ma a fare notizia recentemente è il coinvolgimento di Google nell’attività di raccolta di dati personali di pazienti in molti ospedali statunitensi. All’oscuro di medici e pazienti, il noto motore di ricerca, sembrerebbe aver immagazzinato i dati contenuti in cartelle cliniche di pazienti di 21 stati degli Stati Uniti, all’interno di un progetto noto con il nome di Nightingale.
In tal modo, Google avrebbe realizzato tale progetto in collaborazione con Ascension, operatore sanitario presente in 150 ospedali di 21 stati. Inoltre, pare che circa 150 dipendenti avessero avuto libero accesso a tantissimi dati personali dei pazienti. Senza addentrarci nel profilo concernente la legittimità del procedimento, in relazione al quale Google ne ha comunque sostenuto la conformità alla legge federale sulla portabilità dei dati sanitari del 1996, che consente agli istituti ospedalieri di condividere informazioni sanitarie con dei partner commerciali al fine di permettere alla struttura stessa di portare avanti le sue funzioni mediche, non possiamo non riscontrare una certa attenzione del motore di ricerca a queste particolari categorie di dati personali.
Notizia che letta congiuntamente a quella relativa all’acquisizione da parte di Google di Fitbit, una società che tramite appositi supporti come i braccialetti, memorizza ed archivia informazioni in tempo reale per comunicarci i risultati delle nostre performance sportive, solleva qualche interrogativo in ordine all’utilizzo che Google potrà fare di questi dati.
Ci stiamo riferendo, in particolare alle modalità di sviluppo e addestramento degli algoritmi volti al trattare dati sanitari per ottimizzare i processi di cure e organizzare i comportamenti individuali in modo da renderli più efficaci. Si parla in questo caso di Machine Learning ossia modelli di apprendimento basati direttamente sui dati, senza modelli matematici ed equazioni totalmente predeterminate. In tal modo la “logica dell’algoritmo” si svilupperebbe attraverso l’esperienza.
Algoritmi predittivi e discriminazioni
Gli algoritmi predittivi sono infatti in grado di fornire elementi diagnostici più accurati. Esistono infatti sistemi in grado di predire con maggior precisione dei medici il rischio di morte di un paziente, o lo sviluppo di determinate patologie. Questo perché i metodi tradizionali si concentrano su una parte della cartella medica mentre gli algoritmi usano tutte le informazioni disponibili. Altri sistemi possono predire le malattie analizzando sintomi invisibili per l’uomo incrociando tali informazioni con informazioni ulteriori quali le abitudini di vita del paziente.
Anche se per via dell’apprendimento automatico i sistemi predittivi imparano dall’esperienza e dai dati che vengono inseriti, l’apprendimento si basa, almeno in parte, sulla progettazione dell’algoritmo iniziale. Pertanto l’esito dell’elaborazione dipenderà da una parte dal modo in cui esso è stato programmato dal creatore, dall’altro dalla informazione acquisita in seguito alla ripetuta elaborazione dei dati effettivamente registrati. Tale funzionamento può portare a un rischio di una serie di discriminazioni sia dirette che indirette dell’individuo.
Negli Stati Uniti si è così scoperto che un algoritmo volto a identificare le persone che necessitavano di cure mediche più avanzate produceva sistematicamente risultati viziati. Anche se l’algoritmo di base non conteneva alcun riferimento etnico, i risultati ottenuti durante la fase di “addestramenti” portavano a effetti di tipo discriminatorio. Esso era basato infatti su dati che evidenziavano che erano stati spesi molti meno soldi per pazienti neri rispetto a pazienti bianchi per gli stessi bisogni, pertanto ciò portava l’algoritmo a concludere erroneamente che nei primi l’incidenza delle malattie era meno alta e pertanto necessitavano meno cure. Una ricerca ha poi rivelato che cambiando semplicemente il criterio – ovvero i soldi spesi – i pregiudizi calavano dell’84%.
Impostazione degli algoritmi
Come si è appena evidenziato, l’accuratezza dei risultati prodotti da un algoritmo dipende fortemente dal modo in cui viene impostato. Così, la progettazione di questi sistemi in modo apparentemente neutro senza tenere conto di come le norme e le strutture sociali incidano sul nostro lavoro, non solo è volta a far persistere le situazioni discriminatorie esistenti ma rischia bensì di enfatizzarle. È quindi pur sempre fondamentale il continuo monitoraggio di tali sistemi per accertarsi che essi e i risultati da loro prodotti non siano viziati.
Inoltre, questi strumenti sono sicuramente utili per migliorare e ottimizzare il lavoro dei medici, ma non dovrebbero mai essere considerati come un sostituto all’esperienza o alla conoscenza dei medici in merito alle esigenze e inclinazioni individuali dei loro pazienti.
Infine, una particolare attenzione deve essere posta sui dati – e singolarmente la loro varietà – che vengono a nutrire gli algoritmi nella fase di training. Se in tale fase, per esempio, vengono inseriti dati provenienti al 90% da persone adulte e al 10% da bambini, e se tali percentuali non sono rappresentative della popolazione interessata, i risultati prodotti dall’algoritmo nella fase decisionale potranno essere fortemente distorti. Il campione di riferimento preso in considerazione per “addestrare” l’algoritmo è di fondamentale importanza per evitare funzionamenti distorti e discriminatori.
Questi algoritmi vanno pertanto continuamente monitorati, rivisti e perfezionati ma anche addestrati. Ed è proprio nella fase di addestramento che sono necessari dati corretti, aggiornati e il più possibile variegati per far sì che l’algoritmo sviluppi la propria logica in modo efficace e non iniquo.
Così, non solo saranno necessari dati in grandi quantità, ma questi dati dovranno essere rappresentativi di tutte le categorie di persone interessate sia per quello che riguarda l’età, l’etnia, l’origine geografica, lo statuto sociale, etc. Una maggiore rappresentanza di una categoria di persone rispetto ad un’altra nei dati inseriti nel algoritmo sarà suscettibile di condurre l’algoritmo all’elaborazione di risultati pregiudizievoli e discriminatori.