Nella misura in cui l’Intelligenza Artificiale intende modellare, o almeno approssimare, la cognitività umana, si trova a fare i conti con la fondamentale dicotomia tra giudizi immediati e ragionamenti ponderati. Come si collocano le nostre tecnologie rispetto a tale dicotomia?
Nelle ultime settimane la comunità mondiale dell’AI è, non a caso, interessata da un acceso dibattito su questi temi.
Razionalità umana e funzioni cognitive
Ma partiamo dalle basi. Se qualcuno ancora non conosce Pensieri lenti e veloci di Daniel Kahneman (2012) corra ai ripari e si affretti a leggerlo. Lo psicologo israeliano vinse premio Nobel per l’economia nel 2002 perché i suoi studi sulla cognitività umana furono di fondamentale importanza per inquadrare il comportamento del soggetto economico.
Dal lavoro di Kahneman emerge una severa revisione della razionalità umana, assai lontana da quello ‘spirito di geometria’ che i razionalisti dell’illuminismo avevano esaltato. La scoperta fondamentale di Kahneman e del suo amico Amos Tversky, scomparso prematuramente, riguarda una fondamentale bipartizione delle nostre funzioni cognitive: quelle veloci (dette Sistema 1) e quelle lente (Sistema 2).
Il Sistema 1 è quello delle emozioni e degli stereotipi, che ci fa reagire a un imprevisto quando siamo alla guida, che ci fa predire la parola “tetto” come completamento della frase “il gatto è salito sul…”.
Il Sistema 2 è quello della focalizzazione e del giudizio, che ci fa valutare se arriveremo al prossimo distributore con la benzina che abbiamo, o se sia il caso di chiamare i pompieri per recuperare il gatto sul tetto. Si tratta di due sistemi che trovano in genere un equilibrio e un’integrazione, ma che usano procedimenti e circuiti mentali ben differenziati.
La discussione in seno alla comunità AI
Molti studiosi, tra tutti Gary Marcus, autore di un recente e consigliatissimo Rebooting AI: Building Artificial Intelligence We Can Trust, osservano che quel Deep Learning assurto recentemente a paradigma per l’intera AI funziona bene rispetto al Sistema 1, ma è pressoché inerme davanti al Sistema 2. Quel che è peggio è che il successo del Deep Learning in compiti da Sistema 1, come ad esempio guidare una macchina o classificare un’immagine, induce nella tentazione di usare le stesse tecniche per affrontare problemi da Sistema 2. Oggi questa tentazione ha un nome e cognome: si chiama Yoshua Bengio, il più riconosciuto e celebrato ricercatore in AI, recente vincitore di quel Nobel per l’informatica che è l’ACM Turing Award. Tra Marcus e Bengio s’è accesa una discussione che sta tenendo banco da alcune settimane nella comunità di AI.
Gary Marcus ritiene che la manipolazione di strutture rappresentazionali sia fondamentale per consentire ad un automa di lavorare con relazioni cognitivamente complesse come la causalità. Egli ritiene irrealistico che un’unica architettura computazionale, nello specifico quella neuronale, sia in grado di assolvere a veloci compiti di classificazione e, al contempo, lenti processi inferenziali. Yoshua Bengio al contrario crede che il ragionamento del Sistema 2 possa essere eseguito rimanendo in un framework di apprendimento profondo che utilizza meccanismi di attenzione (cioè di focalizzazione su specifici aspetti dell’input) con un’opportuna modularità e un framework di “meta-learning” che consenta alle reti di “imparare ad imparare”. In particolare, per ciò che riguarda la nozione di causalità, Bengio ritiene che una rete ben architettata possa riuscire ad infrangere il famoso principio della statistica per cui dalle correlazioni non si possono evincere nessi causa-effetto: correlation is not causation. Insomma, Bengio crede che un automa, avendo la giusta architettura e abbastanza dati, potrebbe imparare da solo che il matrimonio non è la causa del divorzio.
Deep learning, astrazione e ragionamento
Sia chiaro, Bengio è un eccellente studioso e riconosce pienamente il problema che Marcus pone: il Deep Learning in voga oggi non è in grado di giungere al grado di astrazione necessario per il ragionamento di senso comune. Egli inoltre è scientificamente impeccabile e propone la sua visione nei termini di un programma di lavoro a lungo termine i cui risultati sono ancora tutti da valutare. Tuttavia, c’è una cosa che colpisce nel suo programma: la volontà di difendere il paradigma dell’apprendimento automatico dall’ipotesi di Marcus sul recupero e l’integrazione del metodo ipotetico-deduttivo col suo apparato di rappresentazioni.
A supporto del suo rifiuto per la conoscenza esplicita, Bengio porta una motivazione alquanto debole, quella cioè di una supposta incapacità dei metodi di ragionamento simbolico nel gestire l’incertezza e i dati contestuali (Bengio, The Consciousness Prior, rev. 2019). Ora è chiaro che un ricercatore insignito dell’ACM Turing Award non può non sapere che la logica va a braccetto con la probabilità almeno dagli anni ’70, e che il contesto, qualsiasi cosa sia, si può anch’esso modellare. Si ha dunque la sensazione che il radicalismo neuronale di Bengio vada letto non sul piano scientifico ma su qualche altro piano.
Ai e empirismo
Nella cultura anglosassone v’è sicuramente un’inclinazione empiristica che deriva da Locke, la quale alimenta un diffuso sospetto per il ricorso a regole e codici stabiliti a priori e per tutto ciò che odora di universale. Chomsky è una notevole eccezione in un ambiente che tende al comportamentismo e, in linguistica, al distribuzionalismo.
Nel 2008, l’editor in chief di Wired, Chris Anderson, aveva sostenuto che con i big data e il calcolo a basso costo non ci fosse più bisogno di far teorie e avanzare postulati (Anderson, The End of Theory: The Data Deluge Makes the Scientific Method Obsolete). La cosa aveva fatto inorridire gli epistemologi, ma tant’è: quella che sembrava una boutade è oggi un mainstream tecnologico. Per la cultura tecno-empirista, ciò che si può ricavare dai dati è sempre preferibile a ciò che si può ipotizzare a tavolino, poco importa che i problemi di modellazione si ripropongano poi nella scelta e nella preelaborazione dei dataset per l’apprendimento automatico.
La posizione di Bengio si può dunque inquadrare nell’ideologia empirista, ma c’è probabilmente anche un motivo di conservazione: sulle architetture Deep Neural Network si è investito molto ottenendo ottimi “Sistemi 1”. Algoritmo che vince non si tocca.
Potrebbe tuttavia esserci un motivo più sostanziale. Mentre per fare un modello concettuale basta un foglio (elettronico, s’intende), per mettere a punto un sistema di apprendimento profondo servono terabyte di dati, spesso perfino annotati. Si tratta di asset che solo i pochi soggetti industriali possono acquisire, e sappiamo bene chi sono. A pensar male si fa peccato, ma spesso…