Nella prima metà dell’anno, Google aveva testato un sistema di intelligenza artificiale addestrato a riconoscere i segni della retinopatia diabetica basandosi su immagini del fondo dell’occhio[2]. Nonostante le eccellenti prestazioni in laboratorio, con una percentuale di riconoscimento corretto del 90%, il sistema ha riportato risultati molto più limitati durante la sperimentazione clinica nelle undici cliniche thailandesi.
Finora, i ricercatori motivavano questa riduzione di prestazioni con la scarsa corrispondenza tra i dati di addestramento e test dell’Intelligenza Artificiale e i dati cui era sottoposta in un ambiente reale: un problema già noto come data shift, spostamento dei dati. Ad esempio, un’Intelligenza Artificiale addestrata a individuare segni di malattia in immagini mediche di alta qualità può incontrare difficoltà a riconoscere correttamente immagini sfocate o ritagliate o prodotte da una videocamera economica.
Nel data shift, il training non riesce a produrre un buon modello perché gli esempi usati nell’apprendimento non hanno le stesse caratteristiche “tecniche” dei dati nel mondo reale. Nel caso della sottospecifica invece, il limite diventa strutturale: la differenza di prestazione può manifestarsi anche su dati con le stesse caratteristiche.
Non solo datashift, insomma: le prestazioni degli attuali sistemi di Intelligenza Artificiale sono limitati dalla sottospecifica (underspecification) assegnata durante il training, il processo di apprendimento automatico. “La sottospecifica presenta sfide alla credibilità del machine learning attuale” è il significativo titolo del paper[1] presentato da un gruppo di 40 ricercatori di sette diversi team di Google a fine 2020.
Cosa è la sottospecifica e come funziona un modello di apprendimento automatico
Gli algoritmi di apprendimento automatico hanno una forte base statistica. Durante il processo di costruzione di un modello statistico, la specifica è la fase in cui si stabilisce la forma funzionale del modello e si scelgono le variabili appropriate da includere.
Sottospecificare il modello, quindi, significa selezionare meno variabili di quelle necessarie: in un modello così costruito, gli effetti osservati possono essere compatibili con molte possibili configurazioni dei parametri di ingresso.
Per capire esattamente le origini e le ragioni della sottospecifica, consideriamo come viene creato un modello di apprendimento automatico (machine learning). La strategia attuale prevede di modificare i parametri del modello di IA attraverso l’addestramento (training) con un gran numero di esempi, seguito da test su una serie di esempi simili ma ancora “sconosciuti” al sistema. Quando il modello è in grado di ottenere un valore di errore sufficientemente basso sull’insieme dei test effettuati, il training si considera terminato e i parametri del modello fissati.
Video: I sette passi del Machine Learning – Google
Nel valutare le motivazioni dello scarso rendimento di modelli di IA nel mondo reale, il team guidato da Alexander D’Amour, ricercatore al Google Brain in Cambridge, si è chiesto se il problema potesse essere ricondotto ad una sottospecifica dei modelli di apprendimento in fase di costruzione. D’Amour si è presto reso conto che molti dei suoi colleghi stavano notando lo stesso problema nei loro modelli.
L’indagine iniziale di D’Amour e colleghi ha fatto scuola, e molti gruppi di ricerca hanno valutato le prestazioni di numerose applicazioni di intelligenza artificiale, dal riconoscimento delle immagini all’elaborazione del linguaggio naturale (Natural Language Processing – NLP) alla individuazione delle malattie, trovando che la sottospecifica potesse essere alla base delle scarse prestazioni dei sistemi di intelligenza artificiale.
I ricercatori di Google hanno individuato che l’attuale strategia di training può produrre molti modelli diversi, tutti in grado di superare il test, ma in realtà tutti differenti tra loro nella esatta configurazione dei parametri. La differenza sarà, ad esempio, dovuta ai valori casuali assegnati ai parametri prima dell’inizio del training, al modo in cui i dati vengono selezionati o rappresentati, al numero dei cicli di addestramento: piccole differenze, spesso casuali, che in genere vengono trascurate se non influiscono sulle prestazioni del modello durante il test. Piccole differenze che però possono portare a forti variazioni delle prestazioni quando il modello è impiegato nel mondo reale.
In altre parole, il processo utilizzato per costruire la maggior parte dei modelli di machine learning non può prevedere quali modelli funzioneranno nel mondo reale e quali no.
Il problema risiede nel modo in cui i modelli di machine learning vengono addestrati e testati e, al momento, non sembra esistere una soluzione “facile” per evitare questa limitazione.
Come la sottospecifica limita il training di una Intelligenza Artificiale
Per verificare l’impatto della sottospecifica sul training di un sistema di Intelligenza Artificiale, i ricercatori di Google hanno esaminato le prestazioni di modelli creati per una serie di applicazioni diverse: hanno utilizzato gli stessi processi di training per produrre più modelli di machine learning “analoghi” e dopo li hanno provati con appositi stress test, progettati per evidenziare differenze nelle loro prestazioni.
Ad esempio, nel caso di reti neurali artificiali destinate al riconoscimento di immagini, sono state addestrate 50 versioni di uno stesso modello di riconoscimento: le versioni, differenti solo per i valori casuali assegnati all’inizio ai parametri della rete, hanno “ricevuto” lo stesso stock di immagini di oggetti di uso quotidiano, ImageNet. Tutte le 50 versioni hanno prodotto risultati comparabili nei test sulle immagini di prova, con uguale accuratezza. Ma hanno mostrato notevoli variazioni di prestazione durante lo stress test. Lo stress test è stato effettuato utilizzando ImageNet-C, un dataset di immagini provenienti da ImageNet ma alterate perché pixelate o con variazioni di luminosità e contrasto, e ObjectNet, un dataset di immagini di oggetti di uso quotidiano fotografati in modo insolito, come sedie rovesciate, teiere capovolte e magliette appese ai ganci. Alcune delle 50 versioni hanno avuto buoni risultati con le immagini pixelate, altre con gli oggetti in pose insolite, altre ancora hanno fatto molto meglio nel complesso. In alcuni casi, gli stress test hanno dato risultati divergenti: modelli efficaci nel riconoscere immagini pixelate, ad esempio, hanno conseguito risultati pessimi nel riconoscimento di immagini ad alto contrasto. Questo nonostante il processo di training fosse stato lo stesso per tutti.
Esperimenti simili sono stati condotti con due diversi sistemi di elaborazione di linguaggio naturale e con tre sistemi di Intelligenza Artificiale per usi medicali come il riconoscimento di malattie oculari da scansioni retiniche, l’identificazione di neoplasie da immagini di lesioni cutanee e l’identificazione di insufficienza renale dai dati delle cartelle cliniche dei pazienti. Ogni sistema esaminato presentava lo stesso problema: modelli che avrebbero dovuto essere ugualmente accurati fornivano risultati differenti quando testati con dati reali, come diverse scansioni retiniche o tipi di pelle. Come risolvere questa situazione?
Perché il training dell’Intelligenza Artificiale non funziona nel mondo reale: le possibili soluzioni
Per risolvere i limiti del training dell’Intelligenza Artificiale sono possibili diverse soluzioni.
Un’opzione semplice – ma costosa – è quella di realizzare più modelli di apprendimento in contemporanea ed aggiungere una fase al processo di training e test, in cui i modelli concorrenti vengano testati di nuovo su specifiche attività reali per selezionarne il migliore “sul campo”.
Un’altra soluzione, su cui il gruppo di ricercatori di D’Amour sta lavorando, è la possibilità di migliorare il processo di training, specificando in maniera più puntuale quali sono gli obiettivi e le condizioni d’uso dei modelli, per evitare di scoprire le “vere” condizioni d’uso solo dopo che il modello ha fallito nell’impiego in condizioni reali.
Un interessante contributo viene da un altro articolo, a commento dei risultati deludenti dell’IA in contesti reali, pubblicato su Forbes[3]. Nell’articolo l’autore, oltre a commentare positivamente lo studio di Google sulla retinopatia per il contributo fornito all’avanzamento della ricerca sul training dell’Intelligenza Artificiale, ricorda come l’uso di sistemi automatici in un contesto reale (in questo caso ospedaliero) debba essere accompagnato da un cambiamento di processo, ad esempio per rendere più uniformi e qualitativamente valide le immagini da far analizzare all’IA.
Ad ogni modo, la ricerca di correttivi nel training è fondamentale per estendere l’uso dell’intelligenza artificiale nel mondo reale, perché ogni volta che un sistema di IA non raggiunge gli obiettivi fissati, le persone divengono un po’ meno disposte al suo utilizzo.
_________________________________________________________________________________________
- D’Amour A., Heller K., Moldovan D., et al, “Underspecification Presents Challenges for Credibility in Modern Machine Learning”, ArXiv.org, submitted 6 novembre 2020. ↑
- Beede, E.; Elliott Baylor, E.; Hersch, F.; Iurchenko, A.; Wilcox, L.; Ruamviboonsuk, P.; Vardoulakis L. M.; “A Human-Centered Evaluation of a Deep Learning System Deployed in Clinics for the Detection of Diabetic Retinopathy”, Association for Computer Machinery, April 2020. ↑
- Talby, D.; “Three Insights From Google’s ‘Failed’ Field Test To Use AI For Medical Diagnosis”, Forbes, 9 giugno 2020 ↑