Sviluppare uno strumento di digital health è il primo passo verso la soluzione di un problema clinico-sanitario. Ma non è l’ultimo, anche se chi sviluppa quello strumento e persino alcuni studi a corredo vorrebbero fare passare questo concetto.
Sì, le competenze ingegneristiche, meglio se affiancate da quelle mediche in grado di capire il problema sanitario che la soluzione tecnologica intende affrontare e di conoscere il modo (l’algoritmo) per risolverlo, da quelle giuridiche per garantire la solidità del prodotto dal punto di vista della privacy e della sicurezza, e da quelle proprie dell’utente finale in grado di proporre una soluzione che sia facilmente utilizzabile, aiutano a dare vita, spesso, a un valido strumento di digital health.
Come spesso mi è capitato di scrivere, il lavoro però non termina qui.
Validazione e campione
Occorre sottoporre lo strumento a una validazione della sua affidabilità e della sua sicurezza (intesa come “safety”) che dimostri l’assenza di pericoli dati dal suo impiego, e, soprattutto nel caso di interventi che devono essere introdotti in un percorso assistenziale, a una validazione che ne dimostri l’efficacia clinica (“efficacy”) rispetto agli strumenti abitualmente impiegati per raggiungere gli stessi obiettivi (la cosiddetta “standard of care” o trattamento standard).
Spesso, purtroppo, neanche questo è sufficiente.
Può darsi, per esempio, che il campione su cui la sperimentazione clinica (spesso randomizzata) condotta per testare l’efficacia clinica di una soluzione di digital health non sia sufficientemente ampio, o che la differenza dell’efficacia clinica (misurata su esiti clinici specifici, come per esempio la riduzione del peso, della emoglobina glicata, del numero di sigarette fumate, o della sopravvivenze, attorno ai quali lo studio è costruito) tra i due bracci di trattamento sia presente ma non statisticamente significativa (probabilmente perché dovuta al caso o alla scarsa potenza statistica dello studio).
La tecnica delle revisioni sistematiche
In questi casi possono essere d’aiuto le cosiddette revisioni sistematiche. Si tratta di tecniche in grado di sintetizzare le evidenze scientifiche che provengono da studi differenti. Applicando un protocollo scritto da ricercatori specializzati in questo campo della ricerca clinica, si selezionano gli studi pubblicati in letteratura (gli unici che hanno validità scientifica perché pubblicati su riviste scientifiche che adottano la regola della revisione tra pari – o peer review – per decidere se un articolo è sufficientemente solido dal punto di vista metodologico) in base a precisi criteri di selezione, si estraggono le caratteristiche degli studi (gli interventi oggetto degli studi, gli esiti sui quali gli studi sono basati, la tipologia di popolazione studiata, ecc), si combinano tra loro i risultati ottenuti (quelli ovviamente che sono tra di loro confrontabili) e si ottengono così delle stime di massima sulla efficacia complessiva delle soluzioni proposte.
Può quindi capitare che esistano studi che coinvolgono pochi pazienti e che presi singolarmente non sono in grado di produrre alcuna evidenza statisticamente significativa sulla efficacia della soluzione (tecnologica), ma che analizzati con queste tecniche siano in grado di identificare categorie di interventi (ma anche strumenti tecnologici) per le quali potrebbe essere verosimile un effetto positivo su uno specifico esito.
L’efficacia della app in pazienti con la depressione
È esattamente quello che alcuni ricercatori hanno trovato analizzando gli studi condotti per misurare l’efficacia delle app basate su interventi di terapia cognitivo-comportamentale (quindi a tutti gli effetti delle terapie digitali) in pazienti con depressione.
Oltre 580 articoli scientifici sono stati individuati da una ricerca delle parole chiave sui principali database di citazioni bibliografiche (Medline, e Psyndex) ritenute più opportune ai fini del reperimento degli studi. Una volta eliminati gli studi duplicati, quelli che non erano frutto di sperimentazioni cliniche randomizzate, quelli per i quali il trattamento di terapia cognitivo comportamentale era erogato da strumenti diversi da smartphone e tablet, quelli che non riguardavano pazienti con depressione primaria, quelli condotti prima del 2015, e in generale quegli studi che non erano aderenti ai criteri di inclusione identificati nel protocollo di studio, i ricercatori hanno esaminato 56 articoli. Una volta letto il testo integrale di questi articoli, altri 48 sono stati eliminati per diverse ragioni che, per questione di metodo, confliggevano con i criteri di inclusione o non si focalizzavano sugli esiti clinici (sui quali il trattamento tecnologico avrebbe dovuto impattare) presi in considerazione (sintomi depressivi, ansia correlata alla depressione, livelli di autostima e qualità della vita). Degli 8 studi rimasti (per un totale di 1534 pazienti), i ricercatori hanno studiato l’efficacia sugli esiti considerati.
Ebbene, gli studi esaminati in questa revisione hanno riportato risultati contraddittori. Per quanto riguarda i sintomi di depressione 5 studi non hanno trovato alcuna differenza tra l’app e il trattamento di controllo, mentre in tre studi è stata dimostrata la superiorità dell’app. Per quanto riguarda l’ansia correlata alla depressione, nei 4 studi in cui questa è stata valutata, 2 mostravano un beneficio dell’app sul trattamento standard, mentre negli altri 2 non era stata osservata alcuna differenza statisticamente significativa. La stessa cosa è stata osservata sull’impatto dell’app sull’autostima (2 studi a favore e due studi neutri), mentre nessuno dei tre studi che valutavano la qualità della vita ha visto un beneficio dell’app rispetto al gruppo di controllo.
A ciò occorre aggiungere che, a causa dell’elevata eterogeneità clinica e metodologica nel misurare gli esiti, è stato difficile ottenere risultati evidenti. Differenti scale e indici sono stati infatti usati nei singoli studi per misurare i 4 esisti, compromettendo così la possibilità di sintetizzare i risultati.
In conclusione, non è stato possibile stabilire chiare implicazioni della terapia cognitivo comportamentale veicolata attraverso app per smartphone e tablet, nemmeno per il trattamento della depressione, dove pure era disponibile una maggiore presenza di studi.
Conclusioni
Cosa ci insegna questo articolo?
Innanzitutto, che bisogna condurre una ricerca clinica più solida dal punto di vista metodologico che faccia uso di sperimentazioni cliniche randomizzate (la maggior parte degli studi esclusi riguardava appunto studi clinici non randomizzati) nelle quali i pazienti siano un campione davvero rappresentativo della popolazione (l’articolo ha evidenziato una maggiore presenza di pazienti di sesso femminile negli studi esaminati). La collaborazione tra chi sviluppa lo strumento tecnologico ed enti di ricerca abituati a usare la metodologia delle sperimentazioni cliniche e della Evidence Based Medicine potrebbe aiutare a superare questo ostacolo.
Occorre poi utilizzare misure per la valutazione degli esisti che siano le più uniformi possibili. L’impiego di differenti scale rende pressoché impossibile poter confrontare gli esiti tra di loro e inattuabile il lavoro di revisione sistematica. È un problema che riguarda non solo l’ambito della salute mentale, ma che coinvolge altri valori che le tecnologie spesso misurano (si pensi per esempio ai differenti modi di misurare l’aderenza al trattamento farmacologico). Verificare in letteratura quali sono le misure standard (o quelle più frequentemente utilizzate) potrebbe aiutare a limitare questo problema.
Infine, ci aiuta capire che se le precedenti due condizioni sono rispettate, potrebbe non essere necessario condurre studi di grandi dimensioni, ma, in presenza di uniformità nella raccolta di dati tra studi, potrebbe essere sufficiente condurre revisioni sistematiche della letteratura (magari accompagnate da tecniche di meta-analisi che forniscono evidenze anche dal punto quantitativo e non solo qualitativo) per poter dimostrare l’efficacia clinica di una soluzione tecnologica.