L’Unione Europea ha scelto di concentrarsi su tematiche di regolamentazione, affidabilità, etica dell’intelligenza artificiale, trascurando però gli investimenti pubblici per promuoverne lo sviluppo e l’adozione, ossia ciò che serve per padroneggiare la tecnologia e sfruttarne i benefici.
Intelligenza artificiale, la grande speranza di sbloccare l’innovazione mondiale
È ormai riconosciuto che l’AI è una General Purpose Technology, che avrà impatti rilevanti su tutti i campi di attività umana. L’Europa non può lasciare che siano altri a svilupparla e a imporre il loro dominio tecnologico, ma deve padroneggiare la tecnologia ed applicarla a beneficio del proprio progresso, economico e sociale.
È un’errore strategico limitare il proprio ruolo a quello di regolamentatore e utilizzatore di tecnologie controllate da altri, non intervenendo massicciamente con investimenti pubblici, soprattutto in considerazione della minima entità di quelli del settore privato.
I Large Language Model: la terza rivoluzione dell’NLP
Sono concetti che risulteranno evidenti soprattutto ora, nell’ascesa dei Large Language Model che stanno portando ora a un’ondata di costrutti grafici creati dall’IA su piattaforme come Dall-E di Open AI.
I Large Language Model (LLM) sono modelli di reti neurali profonde (Deep Learning) in grado di cogliere una conoscenza molto ampia di una lingua, ricavandola da enormi quantità di testi, tratti principalmente dal Web. Ma le loro capacità si sono presto dimostrate ben superiori al completare una frase o comporre intere storie a partire da un breve spunto iniziale.
Questo li ha resi soggetti di curiosità mediatica e di dibattito persino su questioni sociali e filosofiche. Per esempio, dal punto di vista sociale, si è discusso sull’opportunità di renderli disponibili pubblicamente per evitare che vengano usati per generare fake news in automatico su larga scala: come decise di non fare la società OpenAI, dopo avere annunciato lo sviluppo di GPT-2. Da un punto di vista filosofico, qualcuno si è spinto fino a sostenere che i più recenti e sofisticati LLM siano dotati di autocoscienza.
Non è così, e lo sappiamo per certo, dato che conosciamo perfettamente la tecnologia con cui sono costruiti.
I LLM costituiscono il secondo dei tre breakthrough scientifici del Deep Learning applicato al Natural Language Processing, avvenuti nel breve periodo di 10 anni. I breakthrough nella scienza sono imprevedibili e accadono di rado: che ne siano accaduti tre in così poco tempo nella stessa disciplina è straordinario.
Il primo breakthrough fu l’invenzione di un metodo per rappresentare il senso delle parole con tecniche di apprendimento non supervisionato (self-supervised): bastava fornire a una rete neurale un elevato numero di frasi perché imparasse a cogliere somiglianze di significato tra le parole che le componevano. Ogni parola veniva rappresentata da un word-embedding, un vettore di centinaia di numeri: ciascuno in qualche modo coglieva una particolare sfumatura di significato.
Il secondo breakthrough fu l’introduzione di un meccanismo di attenzione, descritto nell’articolo seminale “Attention is all you need”, di Vaswani et al. nel 2017. Con l’attention si riescono a cogliere legami e relazioni tra le parole e costruire i cosiddetti “Transformer”, ossia modelli che trasformano una sequenza di input in una sequenza di output, conservando le relazioni tra le parole.
Più in generale, si tratta di reti neurali utilizzate per processare dati sequenziali (quindi linguaggio, andamento di azioni, fenomeni con andamenti temporali) che però, a differenza di sistemi precedenti, processano tutti i dati di input contemporaneamente.
I transformer risultano quindi in grado di tenere in debita considerazione tutta la struttura dei dati di input utilizzando questo meccanismo di attention, ovvero di accentuazione o riduzione della rilevanza di talune parti dell’input.
Il successo dei Transformer
Per esempio nella traduzione automatica, il testo originale viene trasformato nella sua traduzione in un’altra lingua, tenendo conto del senso e della corrispondenza con le parole nell’originale.
La tecnica dei Transformer applicata alla traduzione automatica è stata uno dei più clamorosi successi della disciplina, che ha portato a surclassare in pochi mesi per qualità ed efficienza i precedenti sistemi che avevano richiesto anni di sviluppo e messa a punto.
I Transformer hanno sbaragliato tutte le altre tecniche usate in precedenza nel campo del NLP in ogni tipo di compito: traduzione, classificazione, riassunto, risposte a domande, analisi di sentiment, inferenza linguistica.
Basta scorrere la classifica dei sistemi a confronto su SuperGlue, una raccolta di benchmark di analisi linguistica, per notare non solo che tutti i migliori fanno uso di Transformer, ma che molti superano in accuratezza le capacità umane.
Il Transformer possono essere adattati a nuovi compiti in modo relativamente semplice con la tecnica del fine-tuning. Si parte da un modello pre-allenato su un’ampia raccolta di testi e gli si fornisce una raccolta relativamente piccola di esempi del nuovo task da svolgere, e il modello si adatta rapidamente a svolgerlo.
È un progresso straordinario: invece di dover costruire un grosso corpus di apprendimento, annotato laboriosamente da esperti umani con le risposte giuste, uno per ciascun compito, si sfrutta l’enorme conoscenza linguistica contenuta in un singolo Transformer, e lo si adatta al nuovo compito.
La nascita della Bertology
Il terzo breakthrough è avvenuto quando si è scoperto che spesso non è neppure necessario eseguire il fine-tuning, si può sfruttare la capacità innata di un LLM di completare uno spunto.
Per esempio, se si fornisce lo spunto
English: Good morning.
Italiano: Buongiorno.
English: Inflation is at 9% in Europe.
Italiano:
Il modello proseguirà il testo aggiungendo: L’inflazione è al 9% in Europa. Addirittura è possibile spingere il modello a svolgere ragionamenti per passi (step by step).
Per esempio, fornendo la domanda (Q) e lo spunto (A), Kojima et al. riescono a ottenere questo Output:
Q: A juggler can juggle 16 balls. Half of the balls are golf balls, and half of the golf balls are blue. How many blue golf balls are there?
A: Let’s think step by step.
(Output) There are 16 balls in total. Half of the balls are golf balls. That means that there are 8 golf balls. Half of the golf balls are blue. That means that there are 4 blue golf balls.
Le capacità dei Transformer hanno sorpreso gli stessi ricercatori, portandoli a chiedersi quali e quante conoscenze linguistiche abbiano accumulato al loro interno. Per esempio quanto sappiano riconoscere la struttura grammaticale di una frase o i contesti negativi e dubitativi delle subordinate (“non dico che”, “non credo che”). Si è aperta così una branca della disciplina denominata BERTology, dal nome di BERT, il primo dei più celebri Transformer model.
L’uso dei Transformer si sta inoltre allargando anche ad altri settori dell’Intelligenza Artificiale, per esempio alla visione. Il modello DaLL-E per esempio è in grado di produrre immagini di ottima qualità artistica a partire da una descrizione testuale del soggetto, mettendo persino preoccupazione all’Association of Illustrators. Meta ha annunciato “Make-a-movie”, un modello simile in grado di produrre video animati.
Lo studio dei Transformer è diventato un settore specifico, a cui si dedicano interi istituti come il Center for Foundation Models a Stanford.
Naturalmente, ci sono anche molti detrattori dei LLM, che si ingegnano a mostrare esempi di frasi o risposte fornite dai LLM clamorosamente sbagliate. Ciò non sorprende, perché i LLM sono allenati per riprodurre frasi simili a quelle da cui hanno imparato e riuscendo a pescare all’interno della loro vasta mole di dati, informazioni utili alla risposta ma non sempre coerenti col contesto.
La semplice spiegazione è che i transformer sono attrezzati per svolgere quello che il Nobel Daniel Kahneman chiama pensiero veloce, quello intuitivo e immediato che usiamo prevalentemente anche noi, se non siamo costretti a ricorrere al pensiero lento, quello riflessivo e cosciente, necessario per svolgere compiti più complessi o anche solo compiti che non abbiamo ancora imparato.
Le frontiere della ricerca sugli LLM
Riuscire a fare evolvere i LLM per dotarli di capacità di ragionamento è uno degli obiettivi principali della ricerca corrente e richiederà un ulteriore breakthrough. Ci sono buoni motivi di sperare che questo avvenga presto, dato il numero crescente di ricercatori che si stanno dedicando alla materia e al numero impressionante di 100 nuovi articoli su NLP pubblicati ogni su Arxive. Altri obiettivi di ricerca riguardano la possibilità di apprendere da un numero più ridotto di esempi, trasferendo conoscenze già acquisite in altri compiti.
Vista la capacità dei LLM di accumulare conoscenza sempre più vasta, negli anni sono stati costruiti modelli sempre più grandi, come mostra questo grafico:
I costi della ricerca e chi li sta finanziando
Al crescere del numero di parametri corrisponde un aumento delle conoscenze immagazzinate nel modello e quindi delle sue capacità, ma aumentano anche i costi per allenarlo, sia in termini di tempo, come si vede in questo grafico, che di consumo di energia:
Si stima che il costo per allenare GPT-3 sia stato superiore ai 21 milioni di dollari, facendo uso di migliaia di computer dotati di costosi acceleratori GPU.
Ciò significa che attualmente solo grandi aziende tecnologiche come OpenAI (GPT-3), Google (T5, DaLL-E, PaLM), Meta (OPT-175), i cinesi di BAAI (Wu Dao) e i coreani di Naver (HyperCLOVA) hanno la capacità per svilupparli. Meta ha annunciato la realizzazione dell’AI Research SuperCluster, il più potente calcolatore al mondo destinato alla costruzione di LLM.
Se, come abbiamo visto, la tendenza in atto è di fare tutto mediante transformer, il risultato è di concentrare nelle mani di poche aziende la tecnologia per ogni applicazione di AI. E la ricerca più avanzata potrà essere svolta solo da chi sarà dotato di infrastrutture adeguate. Già adesso se si conta il numero di articoli scientifici nelle grandi conferenze internazionali sul Deep Learning si nota come una sola grande azienda americana ne pubblichi poco meno che i ricercatori di tutta Europa.
La proposta di un CERN per l’IA
Nel 2018, un gruppo di oltre 3000 ricercatori europei ha costituito l’associazione CLAIRE, per segnalare agli organismi comunitari europei la necessità di investimenti straordinari per rilanciare la ricerca europea nel settore dell’AI e in particolare suggerendo la creazione di un centro di ricerca comune, un CERN for AI, dotato delle risorse infrastrutturali necessarie per svolgere ricerche in un settore ad alto impatto tecnologico.
Inizialmente la Commissione pareva disponibile a investire, con promesse di investimenti di 20 miliardi di euro in 5 anni. E venne costituito un High Level Expert Group on Artificial Intelligence per fornire consigli sulla strategia europea da adottare.
Ma dopo l’uscita del Coordinated Plan on AI nel 2018, che indicava ai governi come impegnarsi nello sviluppo dell’AI, negli anni successivi la UE cambiava completamente direzione, concentrando l’attenzione su questioni di etica e di affidabilità (trustworthyness). Venivano prodotti “The Ethics Guidelines for Trustworthy AI” nel 2019 e “The European AI Act” nel 2022.
La focalizzazione sull’etica dell’AI è però criticata da molti. Ad esempio Moshe Vardi, vincitore del Knuth Prize dell’ACM, sostiene che sia limitativo affrontare le questioni poste dall’AI solo attraverso la lente dell’etica: bisogna risolvere le questioni di policies, tra cui quella dell’impatto economico e sociale della concentrazione di potere che si determina lasciando in mano di poche aziende il controllo su una tecnologia altamente pervasiva.
Lo European AI Act si concentra su definire meccanismi per certificare se un’applicazione di AI rispetta criteri di affidabilità e prevede la creazione di enti di certificazione in ciascun paese, dotati di “adeguate risorse finanziarie”.
Ogni applicazione che impieghi tecniche di AI e sia considerata ricadere in un ambito di rischio, deve essere soggetta a certificazione. Ma la definizione stessa di AI che riporta l’ACT è talmente ampia che vi fa rientrare anche un semplice programma che faccia uso di una libreria statistica.
Inoltre, lo stesso documento riconosce che questi vincoli possano essere un ostacolo alle piccole aziende che non hanno risorse per svolgere la certificazione, che qualcuno stima a circa 300.000 euro, e pertanto propone di rimediare introducendo delle “regulatory sandboxes” dove le aziende possano sperimentare i loro prodotti prima di immetterli sul mercato. Alcuni requisiti sono fuori luogo o impossibili da soddisfare, per esempio che i dataset di apprendimento siano “free of errors and complete”, una condizione praticamente impossibile da garantire.
Va ricordata poi Adra (Public Partnership for AI, Data and Robotics), che avrebbe l’obiettivo di realizzare la sovranità tecnologica e la leadership europea in questi tre settori. È tuttavia impensabile raggiungere tale obiettivo con gli scarsi investimenti messi a disposizione e con l’approccio frammentato e federativo adottato dalla Commissione. Adra intende porsi come intermediaria tra la Commissione Europea e chi intende orientare la direzione da intraprendere in quei tre campi di applicazione. Ciò che servirebbe sarebbe un grande progetto unitario, una visione e fondi adeguati per realizzarli.
Alla fin fine di tanti piani e propositi, si fatica a trovare traccia di investimenti pubblici significativi nell’AI da parte dell’Unione Europea. Solo 50 milioni sono stati destinati a progetti di coordinamento sull’AI nella tematica ICT-48. I progetti europei finanziati nell’ambito di Horizon 2021 assommano a poche decine di milioni di euro, mentre per il 2022 è previsto un finanziamento di 35 milioni per una rete di centri di eccellenza in AI, senza finanziare tali centri. Il Workprogram 2023-2024 finanzia il tema “AI, data and robotics” con un budget di 19 milioni di euro. Queste cifre impallidiscono al confronto con i 100 miliardi di USD investiti da privati nel 2021 in AI, secondo lo Stanford AI Index.
Conclusioni
L’Europa si è resa ben conto di quali rischi si corrano lasciando ad altri il controllo di tecnologie cruciali, come quella dei semiconduttori. La crisi dell’approvvigionamento di semiconduttori ha messo a rischio la produzione automobilistica europea: in quel caso l’Europa ha reagito prontamente, lanciando lo European Chips Act e investendo 20 miliardi per rendere l’Europa più autonoma.
Dovrebbe fare lo stesso e di più per rendersi più autonoma nel campo dell’AI, che ha una rilevanza ancor maggiore in tutti i settori industriali e civili. Quindi si dovrebbe tornare a considerare la proposta dei ricercatori di CLAIRE per la costituzione di un Centro di Ricerca Europeo in AI, con una dotazione di risorse finanziarie adeguate per poter costruire un’infrastruttura sperimentale, un cluster di server per AI, analogo ai sincrotroni che il CERN mette a disposizione per la ricerca sulla fisica.
La dotazione di un budget stabile consentirebbe di pianificare attività e progetti a medio termine, anziché dover rincorrere ogni anno finanziamenti per nuovi piccoli progetti di durata triennale. Sarebbero poi i ricercatori stessi a decidere come investire i fondi in direzione di una visione comune di portata strategica.
Per accelerare i tempi e saltare molti passaggi burocratici, il centro potrebbe essere una divisione autonoma dello stesso CERN, beneficiando in particolare dello status di esenzione fiscale. In questo modo i ricercatori che vi lavorano potrebbero avere uno stipendio netto maggiore, e rendere attraente lavorare presso il centro restando in Europa, anziché venire assunti dalle aziende americane, drenando i talenti europei.