Uno dei problemi più rilevanti della statistica sanitaria è il fatto di avere a che fare con dei campioni di dati che sono troppo piccoli per poter assicurare una significatività statistica.
Un articolo pubblicato su Nature il 16 marzo 2022 con primo firmatario Scott Marek, dal titolo: “Reproducible brain-wide association studies require thousands of individuals” pone con forza numerosi interrogativi su come vengono raccolti e trattati i dati delle risonanze magnetiche che tentano di costruire una mappatura del cervello per potere rendere comprensibile il suo funzionamento.
Il nuovo Spazio Europeo dei Dati Sanitari: obiettivi e sfide della proposta Ue
Ma come vedremo in seguito questo è solo un tassello di un puzzle più grande che coinvolge la gran parte degli studi di statistica medica.
I Brain-Wide Association Studies
I Brain-Wide Association Studies (BWAS) sono degli studi che hanno come finalità l’associazione di differenze individuali nella struttura e nel funzionamento del cervello e modelli comportamentali come capacità di apprendimento e disabilità mentale. Questi BWAS si sono tipicamente basati su dimensioni del campione (la mediana del campione è 25) che vanno bene se si deve ottenere una tradizionale mappatura del cervello, ma che sono estremamente esigui per poter individuare delle associazioni riproducibili di modelli comportamentali. Infatti, gli studi che utilizzano le tecnologie neuroimaging comunemente inseriscono dei caveat per le loro conclusioni a causa della ridotta dimensione del campione. Sono ormai più di 20 anni che i ricercatori usano tecnologie di brain-imaging via via più evolute per cercare di identificare come la struttura e la funzione del cervello di una persona si collega con la sfera della salute mentale, cercando di spiegare, ad esempio, le manifestazioni di ansia, depressione e le tendenze suicide. Tuttavia, si tratta di studi costosi, l’arruolamento dei partecipanti può essere oneroso in termini di tempo e abbastanza costoso (da 600 a 2.000 dollari l’ora) e questo spiega la circostanza che la mediana dei campioni sia di circa 25 unità.
Quali e quanti dati utilizzare per risultati
Nell’articolo di Scott Marek si dimostra che i dati rilevati con campioni di poche decine di casi non possono essere affidabili e possono dare facilmente origine a risultati distorti. Per ottenere risultati non distorti, affidabili e replicabili è necessario aumentare di parecchio la dimensione del campione. Infatti, Scott Marek e il suo gruppo hanno preso in considerazione tre dei più grandi set di dati di neuroimaging attualmente disponibili – con una dimensione totale del campione di circa 50.000 individui – per quantificare le dimensioni degli effetti BWAS e riproducibilità in funzione della dimensione del campione. Da questi big data hanno estratto dei sottogruppi più piccoli osservando che quando la numerosità del sottogruppo rimaneva elevata i risultati erano simili a quelli del set completo di dati, viceversa quando sottoinsiemi erano piccoli producevano risultati inaffidabili se confrontati con i risultati prodotti dall’intero set di dati.
La sacralità del dato negli esperimenti
Questo risultato è estremamente rilevante perché apre tutto un dibattito sulla reale scientificità di molti risultati di statistica medica ottenuti con campioni molto piccoli o con set di dati non ben costruiti. Spesso l’origine del fallimento di una ricerca è dovuto alla qualità del dato che viene usato fare le elaborazioni. Spesso con leggerezza si effettuano analisi e si traggono conclusioni utilizzando campioni con dati non controllati, o non verificati, o di scarsa qualità, o troppo piccoli per essere significativi e rappresentativi. Un database di scarsa qualità è già il primo passo verso un fallimento certo. Uno dei primi insegnamenti che viene dato ai fisici è la sacralità del dato negli esperimenti. Lo scienziato diventa il sacerdote che trasforma l’osservazione della realtà e la sua misurazione in un dato che ne deve riprodurre fedelmente le caratteristiche. Lo studio della qualità dei dati e delle condizioni di errore diventa, quindi il prerequisito di ogni ulteriore elaborazione.
Spesso nella statistica sanitaria ci sono creati database “Frankenstein” che derivavano dall’aggregazione di basi di dati diverse, non omogenee e soprattutto costituite da dati raccolti con metodologie e strumenti diversi e spesso i ricercatori medici non hanno le conoscenze e le capacità statistico-matematiche per gestire i problemi del dimensionamento del campione e della raccolta dei dati.
Il ruolo dell’intelligenza artificiale
I ricercatori vogliono acquisire velocemente e a basso costo i dati, ma questo significa spesso aggregare dati derivanti da osservazioni differenti o dati provenienti da fonti sconosciute. E l’utilizzo dell’intelligenza artificiale ha reso questo processo più diffuso e meno controllato. Andando ad esaminare un caso di diagnosi per immagini diverso, quello delle ricerche sul covid pediatrico, non si può non notare che si sono utilizzati involontariamente dei set di dati che contenevano scansioni polmonari di bambini che non avevano il covid come archetipi di casi non covid. Ma di conseguenza, l’algoritmo di Intelligenza Artificiale ha imparato a identificare i bambini, non il covid!
Conclusioni
Se vogliamo, quindi, evitare che le ricerche diano risultati distorti e/o inaffidabili dobbiamo cercare una solida metodologia di costruzione e di analisi dei dati, dobbiamo creare dei database standardizzati, dobbiamo far precedere una seria analisi sulla qualità del dato a tutte le elaborazioni e dobbiamo, infine, assicurare una significatività e una rappresentatività dei campioni. È un lavoro certosino e meno gratificante, ma necessario, perché un set di dati di scarsa qualità produce previsioni scadenti e in sanità questo si ripercuote pesantemente sui pazienti.