Interdisciplinarietà

Data analysis, scienze cognitive e linguistica: come si è arrivati al machine learning

I diagrammi ad albero, che derivano dal principio linguistico di generatività formale, sono serviti a Turing per risolvere il primo caso di big data analysis, la decifrazione di Enigma. Dalla gerarchia alla wirearchy, ecco le tappe che hanno portato al machine learning

Pubblicato il 19 Set 2022

Rachele Cataldo

Content Editor, Digital Communication Specialist

La riproduzione del funzionamento del cervello umano nelle macchine IA ha tratto dalla matematica, dalla filosofia, dalla psicologia e dalle scienze dei metodi di analisi che oggi permettono l’elaborazione di dati complessi e che includono anche variabili basate sul contesto.

Se, infatti, una volta era necessario configurare i sistemi secondo dei pattern specifici, che la macchina doveva rintracciare nei dati inseriti e restituire come risultato, oggi, grazie ai metodi sopra citati, i sistemi d’intelligenza artificiale sono in grado di rivelare pattern e connessioni tra informazioni non riconosciute precedentemente, risultati innovativi rispetto alle nostre conoscenze.

Intelligenza artificiale “linguistica”: bene il Governo, ma ora accelerare

Indice degli argomenti

Il principio di generatività formale e il diagramma ad albero

Il legame tra la data analysis e le scienze cognitive si è configurato nel corso del ‘900 nell’ambito degli studi sul funzionamento della mente umana, che si sono avvalsi, a propria volta, di concetti tratti dalle ricerche in ambito linguistico.

In particolare, il settore della ricerca linguistica ha approfondito i processi di calcolo ed elaborazione delle informazioni, su cui si è sviluppata una nuova conoscenza: nel tentativo di riprodurre il processo d’apprendimento della lingua umana, si è riusciti a riprodurre il processo di funzionamento generale della mente umana partendo dai meccanismi di base.

Il principio di generatività formale secondo cui si parte da elementi di base semplici per ricombinarli in forme più complesse è un concetto di organizzazione gerarchica sviluppato negli studi psicologici e filosofici ed è stato largamente utilizzato nel campo delle scienze informatiche e nello sviluppo dei sistemi digitali interattivi.

Questo principio è graficamente traducibile nel diagramma ad albero, un dispositivo utilizzato in tutti i settori della conoscenza.

Un esempio in linguistica è il processo di formazione delle parole secondo le norme grammaticali: la base semplice è costituita in questo caso dal morfema, dal greco μορφή «forma», unità elementare nel sistema delle forme grammaticali, a cui si legano i suffissi grammaticali e lessicali per la formazione di una parola:

am-o

am- morfema lessicale / o- morfema grammaticale

Enigma: come Turing affrontò il primo caso di big data analysis

Il primo a tentare di utilizzare tali strumenti per sistematizzare processi più complessi di funzionalità nelle macchine e renderle ancora più vicine ad un’efficienza umana fu il matematico e linguista, Alan Turing.

Nel corso della Seconda Guerra Mondiale, Turing insieme ad altri collaboratori del team “Stazione X”, affrontò per la prima volta il problema dell’analisi di big data, riuscendo a decrittare il sistema di comunicazione tedesco, la famigerata macchina Enigma, grazie a un sistema di calcolo automatico e altamente intuitivo che permise di rivelare la chiave di lettura dei messaggi criptati.

Questo episodio testimonia una delle prime occasioni in cui la mole di informazioni era tanto ampia da non poter essere gestita da un solo individuo ma solo da un processore automatico artificiale: la Bomba di Turing era in grado di trattare 5.000 caratteri al secondo e di decifrare ogni giorno, dopo avere scardinato il sistema crittografato dalla macchina “Enigma”, più di 4.000 messaggi segreti tedeschi e altrettanti giapponesi e italiani.

Fu nell’ambito del problem solving che si svilupparono le prime forme di elaboratori informatici: la dimostrazione del concetto di Turing fu inizializzata da Allen Newell, Cliff Shaw e Herbert Simon con il programma “The Logic Theorist”, un programma progettato per imitare le capacità di problem solving di un essere umano, considerato la prima intelligenza artificiale.

Tra gli anni ‘70 e ’90 i processori furono implementati sempre di più con l’obiettivo di creare simulazioni quanto più fedeli alle capacità cognitive umane. Ciò fu reso possibile grazie al principio della generatività formale, secondo cui a partire da basi semplici è possibile creare più livelli dalla configurazione formale e sempre intelligibile.

Dalla gerarchia alla wirearchy al machine learning

Il principio della generatività formale fu superato a favore di una diversa tipologia di organizzazione sempre mutuata dagli studi di psicologia, che favorì lo sviluppo delle reti di connessione Internet e di sistemi di elaborazione più complessi, in grado di prevedere possibili sviluppi futuri di un processo non prevedibile dal principio di generatività formale ed elaborare soluzioni innovative rispetto alle informazioni ricevute dall’input iniziale.

In particolare, l’avvento Internet ha richiesto un modo diverso di organizzare un sistema enorme. Invece di una gerarchia, Jon Husband conia il wirearchy – una vasta rete di reti egualitarie. Questo schema riproduce il modello tratto dalle scoperte in ambito biologico sulla natura di sistemi complessi che si auto-organizzano, si auto-adattano e si evolvono.

Wirearchy è un principio organizzativo primario emergente. La sua definizione operativa è un flusso dinamico a due vie di potere e autorità, basato su conoscenza, fiducia, credibilità e attenzione ai risultati, reso possibile da persone e tecnologie interconnesse.

Questo modello favorisce una dinamica più autonoma degli elementi e, prediligendo la connessione fra gli elementi e la costituzione di reti, ha offerto una forma alternativa a quella gerarchica ad albero in grado di orientare la costruzione di narrazioni/rappresentazioni più articolate, variabili e complesse.

Grazie all’adozione di tale principio organizzativo è stato possibile realizzare il machine learning, ovvero i sistemi alla base degli strumenti tecnologici che utilizziamo quotidianamente: i software che consentono ai motori di ricerca di rispondere nel merito alle ricerche degli utenti, la tecnologia di riconoscimento vocale presente negli smartphone, i filtri antispam per le mail indesiderate.

Sottodominio dell’artificial intelligence, il machine learning invece si riferisce all’abilità di un sistema tecnologico di apprendere in automatico, senza essere stato programmato preventivamente. In sostanza, gli algoritmi permettono di imparare direttamente dall’esperienza (proprio come farebbe l’uomo), elaborando un insieme di dati acquisiti nel tempo e migliorando le prestazioni in modo adattivo, via via che gli esempi reali da cui attingere informazioni aumentano.

L’intelligenza artificiale e il machine learning permettono insomma di gestire (selezionare, incrociare, analizzare) grandi volumi di dati multisource.

L’obiettivo è estrarre informazioni utili al decision-making umano o ad innescare automatismi. Un software basato sull’apprendimento automatico, infatti, a differenza di uno tradizionale impara come risolvere i problemi effettuando esperienza direttamente con i dati.

Dentro il machine learning: alberi decisionali e classificatori bayesiani

Si comincia dalla fase di input, in cui la macchina riceve informazioni. La macchina elabora quindi i dati secondo un processo prestabilito, determinato dall’algoritmo: un algoritmo è una serie di operazioni semplici, diverse fra loro, che, eseguite in un ordine prestabilito, permettono di giungere ad un risultato atteso. Così come il cervello umano elabora le informazioni in maniere diverse, esistono diverse tipologie di algoritmi attraverso cui il machine learning può funzionare.

Gli alberi decisionali sono utilizzati in particolar modo nei processi d’apprendimento basati sull’osservazione dell’ambiente circostante da cui derivano variabili di input, ovvero dati inseriti.

Il processo decisionale è rappresentato da un albero logico rovesciato dove ogni nodo è una funzione condizionale (figura 1). Il processo è una sequenza di test che inizia dal nodo radice e procede verso il basso scegliendo una direzione piuttosto di un’altra sulla base dei valori rilevati. La decisione finale si trova nei nodi foglia terminali. Tra i vantaggi vi è la semplicità e la possibilità di verificare attraverso quale processo la macchina è giunta alla decisione.

Lo svantaggio è che si tratta di una tecnica poco adatta a problemi complessi.

Il secondo metodo più utilizzato sono i classificatori bayesiani, basati sul teorema di Bayes, matematico britannico che nel XVIII secolo introdusse un nuovo approccio alla statistica: viene impiegato per calcolare la probabilità di una causa che ha scatenato l’evento verificato (figura 2). Per esempio: appurato che l’elevata presenza di colesterolo nel sangue può essere causa di trombosi, rilevato un determinato valore di colesterolo, qual è la probabilità che il paziente sia colpito da trombosi? I classificatori bayesani hanno differenti gradi di complessità.