l’analisi

Dalla diffidenza al potere: l’ascesa dell’IA e le nubi sul nostro orizzonte

Nella nostra epoca, convivono un deficit e un eccesso di fiducia. Mentre cresce la diffidenza generale, la popolarità dei modelli linguistici (LLMs) aumenta. Il rapporto AI Index 2024 evidenzia l’accelerazione delle performance degli LLMs, superando in alcuni ambiti le capacità umane. Tuttavia, emergono limiti e rischi di autonomia imprevedibile

Pubblicato il 19 giu 2024

Mauro Lombardi

BABEL – Blockchain and Artificial intelligence for Business, Economics and Law – Università di Firenze

“Un luogo comune della nostra epoca è che soffriamo di un deficit di fiducia. In alcune aree, però, è vero l’opposto: c’è un allarmante eccesso di fiducia” (Thornhill, 2020, trad. nostra). La frase dell’editor di Financial Times in tema di innovazione indica un apparente paradosso: c’è una diffusa diffidenza verso molti fenomeni e dinamiche in atto^[1], mentre aumenta la popolarità dei numerosi Large Language Models (LLMs) che, addestrati su enormi database di informazioni di varia natura (scritte, visive, sonore, multimodali), rispondono alle domande degli utenti con output pregnanti e suggestivi.

AI, i primi grandi dubbi sul super boom

Indice degli argomenti

Intelligenza artificiale: benvenuti nell’exponential era

Siamo di fronte a “modelli linguistici”, nel senso che sono creati per estrarre le regolarità su cui si basano le composizioni linguistiche, siano esse quelle del linguaggio naturale oppure di qualsiasi altro linguaggio (pittorico, scenografico, tecnico-scientifico). Le performance che gli LLMs sono in grado di mostrare sono sorprendenti e mostrano una continua accelerazione nel generare prodotti inattesi e di grande impatto.

Non vi possono essere dubbi che siamo entrati nell’exponential era (Espindola, 2019), con cambiamenti all’inizio graduali, che divengono improvvisamente esplosivi, date anche le peculiarità che caratterizzano l’evoluzione del pianeta Terra. La sfera fisica è infatti avvolta e permeata da una sfera fisico-digitale, che registra le interazioni tra agenti (naturali e sociali), generando flussi globali di informazioni, gran parte dei quali avviene su infrastrutture gestite da pochi global player (Lombardi, 2021; Lombardi e Vannuccini, 2022). La sfera fisico-digitale crea crescenti volumi informativi, che richiedono sistemi sempre più potenti di intelligenza artificiale, da cui derivano cambiamenti con le seguenti caratteristiche: continui, pervasivi, esponenziali (con un tasso di accelerazione crescente) (Chima e Gutman, 2020). L’universo informativo si alimenta di interazioni e feedback multi-livello senza sosta tra processi e attori, dando luogo ad esiti “ontologicamente” imprevedibili, data la complessità inerente alle interconnessioni globali che si sviluppano.

I residui dubbi che possono insorgere sulle peculiarità della nuova era sono fugati dalla lettura dell’ultimo Report sugli sviluppi dell’IA nel mondo, elaborato dalla Stanford University (HAI, 2024) e da una serie di recenti contributi ad opera di studiosi ed esperti di IA.

L’accelerazione dell’IA generativa

Il voluminoso rapporto dell’HAI (2024, d’ora in poi AI Index, 500 pagine ricche di grafici e analisi) mette in luce una serie di aspetti di grande rilievo. Innanzitutto il 2023 è stato un anno contraddistinto da un’accelerazione nelle prestazioni dei sistemi di machine learning, misurate con tradizionali insiemi di parametri (benchmark), progettati per un’analisi comparativa rispetto alle performance umane. GPT-4 e ChatGPT-4o^[2], Gemini e Claude 3 sono “straordinariamente multimodali, in quanto capaci di generare testi scorrevoli in dozzine di linguaggi, di processare audio e di spiegare i meme” (AI Index: 3). Una prima affermazione di carattere generale dell’AI Index è, infatti, che i sistemi odierni di AI superano le prestazioni umane in una serie di attività. ma incontrano problemi nel trattare in modo attendibile fatti concreti, nell’affrontare ragionamenti complessi, nello spiegare le proprie conclusioni.

Seguendo la struttura analitica del Report, esso mostra in primo luogo (Cap.1) la forte crescita dei foundation models^[^3] nel 2023, il cui numero ammonta a 149, più del doppio di quelli rilasciati nel 2022. È importante rilevare come il 65,7% di questi sono open-source, a fronte del 44,4% nel 2022 e il 33,3% nel 2021. Per contro, nel 2023 i notable machine learning models (vedi nota 3) sono 51, 15 dei quali creati dal mondo accademico e 21 da collaborazione tra questo e l’industria. L’accademia ha prevalso fino al 2014 nel creare modelli di machine learning, ma successivamente l’industria è stata protagonista assoluta, Un altro indicatore significativo del trend di crescita è il numero di brevetti, cresciuti il 62,7% nel 2021-2022 e ben 31 volte dal 2010 (AI Index: Fig.1.2.1, p. 38).

Di rilievo è poi la vera e propria esplosione dei modelli di AI “open source”, registrati su GitHub^[4], dove i progetti registrati sono passati da 845 nel 2011 a 1,8 milioni nel 2023, il 59,3% dei quali riguardano l’IA solo nel 2023.

La distribuzione geografica dei brevetti concetti concessi mette in luce le profonde asimmetrie tra le aree geografiche e il ruolo di primo piano dei Paesi asiatici, in primis la CINA, mentre l’Europa segue ampiamente distaccata (AI Index, Fig. 1.2.4., p. 41).

Le traiettorie tecnologiche, appena rappresentate, si sono basate su un aumento imponente delle risorse computazionali necessarie per addestrare e far funzionare gli LLMs e i notable models, come si evince dalla Fig. 1.3.8 (AI Index: 51).

L’incremento di potenza computazionale ha comportato un forte aumento dei costi di addestramento che, nonostante la segretezza con cui i player dell’ecosistema dell’IA proteggono i dati a riguardo, sono elevati e direttamente correlati alla dinamica delle risorse installate (AI Index, Fig. 1.3.23, p. 65)

Il possibile esaurimento della disponibilità di dati di alta qualità

Prima di presentare alcuni elementi relativi alle performance, è opportuno segnalare un tema che molto probabilmente condizionerà l’evoluzione dell’IA nel prossimo futuro, ovvero il possibile esaurimento della disponibilità di dati di alta qualità, in conseguenza dell’enorme aumento di scala della quantità di dati che un numero elevato di società ha finora attinto da Internet, a cui si aggiunge ora la presenza crescente di modelli open source, ad opera di chiunque abbia le capacità di arricchire e gestire i modelli. Un gruppo di autorevoli studiosi, che lavorano sotto l’etichetta Epoch, effettua analisi e studi predittivi sull’evoluzione della frontiera dell’AI. L’AI Index Report cita un loro contributo (Villalobos et al., 2022), che delinea uno scenario di “esaurimento dei dati di qualità” proprio per il 2024 e di quelli di bassa qualità entro 10-20 anni. In effetti gli studiosi stanno pensando di ricorrere, qualora non si profilasse un orizzonte di tale natura, a dati sintetici, generati dagli stessi LLMs, ma uno studio di esperti canadesi (Shumailov et al, 2023: 2) ha dimostrato che apprendimento da dati generati da altri modelli può generare “il collasso” degli stessi modelli: “catastrophic forgetting and data poisoning”.

È ovviamente presto per acclarare l’ipotesi dell’”esaurimento”, ma l’Index Report (p. 82) rileva una sorta di “saturazione” nei benchmark impiegati per valutare le prestazioni tecniche di determinati sistemi di AI. Questo fenomeno, già rilevato nel Index Report 2023, può essere interpretato in due modi: 1) la saturazione è dovuta al fatto che i sistemi di AI hanno raggiunto un plateau. 2) I ricercatori stanno sviluppando più complesse attività di ricerca, che sono oltre i limiti degli insiemi di parametri comparativi finora adottati come standard.

Sarebbe quindi necessario sviluppare nuovi studi ed elaborare nuovi benchmark. Comunque sia, è un dato che in alcuni domini conoscitivi i modelli generativi raggiungono performance vicine e in alcuni casi superiori a quelle umane, come si evince dalla Fig. 2.1.16 (AI Index: 81).

I benchmark di valutazione delle prestazioni

Tra tutti i benchmark di valutazione delle prestazioni mostriamo, per esigenze di brevità, solo i risultati ottenuti dal MMLU (Massive Multitask Language Understanding)^[5], diventato uno dei importanti benchmarkper valutare le perfomance di alcuni modelli in due scenari:

few-shot learning, che definisce situazioni in cui ai modelli sono esposti pochi esempi iniziali dei task da svolgere, su cui sono poi valutati.
Zero-shot learning, caratterizzato dal fatto che i modelli hanno sviluppato task senza preventive esposizioni di esempi.

Emerge che Gemini, GhatGPT-4, GPT-3 e Llama raggiungono un punteggio superiore ai non esperti ma non agli esperti umani. In entrambi i casi le prestazioni dei modelli ritenuti al top (ChatGPT-4, Gemini, Claude 2) hanno mostrato un incremento significativo dal 2022 al 2024, con Gemini Ultra che nel 2023 ha sorpassato ChatGPT-4 come top model, fino a raggiungere il 90,0%, punteggio superiore a quello raggiunto dagli umani (89,8%), come è raffigurato nella Fig. 2.2.6 (AI Index: 87)

Un altro benchmark, il Concept-ARC elaborato dal Santafe Institute, compara le prestazioni degli umani umane e quelle di GPT-4 in tema di “Abstraction and Reasoning Tasks. I risultati vedono un forte distacco tra gli umani (95%) e GPT-4 (69%) (AI Index: 116-117).

Il ragionamento matematico

Nel ragionamento matematico GPT-4 raggiunge elevati livelli percentuali (97%, il 30% in più del 2022), mentre nella matematica necessaria per le competizioni^[6] GPT-4 migliora in misura rilevante la propria prestazione in un triennio (2021-2023): dopo aver stentato, nel primo esso ha raggiunto l’84,30% del benchmark, circa 6 punti in meno degli umani (90%, AI Index: 119).

In estrema sintesi, i grafici confermano ulteriormente i forti avanzamenti dei modelli generativi e indicano chiaramente che essi ormai sorpassano gli umani nella classificazione delle immagini, nel visual reasoning” (su testi visivi e scritti) e nella comprensione dell’inglese (Cfr Fig. 2.1.16), ma restano indietro in task complessi come le conoscenze necessarie per partecipare a competizioni di matematica, la pianificazione (AI Index: 120) e il visual commonsense reasoning, che significa rispondere a domande su foto spiegando la logica delle risposte (AI Index: 121).

I test relativi al causal reasoning

Un altro elemento degno di interesse concerne i test relativi al causal reasoning per valutare se gli LLMs posseggono una “teoria della mente”, cioè comprendere e attribuire stati mentali quali credenze, intenzioni ed emozioni. Ciò è avvenuto mediante il test Big ToM (ToM sta per Theory of Mind), che stima la capacità dei sistemi di effettuare i seguenti processi inferenziali: 1) credenze relative al futuro (predizioni di eventi). 2) azioni prospettiche (basate sulla predizione di eventi futuri); 3) inferenze retroattive, ossia indurre cause di azioni effettuate.

Ebbene, il top performer è risultato GPT-4, che in un caso si è avvicinato al valore rilevato per gli umani in merito a 1 e 3, mentre lo ha superato in relazione al 2 (AI Index: 124-125). È però interessante la progressione prestazionale di GPT-4 rispetto ai precedenti modelli GPT.

I progressi nel campo della scienza e della medicina

In questa sintetica rassegna di prestazione degli LLMs non possiamo trascurare i progressi nel campo della scienza e della medicina. Per quanto riguarda la prima, i modelli generativi hanno consentito significativi avanzamenti (AI Index: 300-306): 1) ottimizzazione algoritmica. 2) computer graphics (videogiochi, animazione, medical imaging, visualizzazione scientifica). 3) Previsione metereologica (GraphCast genera previsioni molto accurate fino a 10 gironi in meno di 1 minuto). 4) Automazione della progettazione chimica, cioè della sintesi organica di nuove molecole di potenziale impiego nell’industria farmaceutica e nella scoperta di nuovi materiali (Synbot di Google. 5) Progettazione di nuovi materiali, dove GNoMe di Google ha superato i sistemi prevalenti, consentendo la rappresentazione reticolare di 2,2 milioni di nuove strutture cristalline. 6) Previsione di disastri naturali, come le alluvioni e altre calamità (Nearing et al., 2023) mediante simulazione di scenari con molte variabili rappresentative dei processi investigati.

Per quanto riguarda la medicina (Index Report: 307- 320), vi sono tre nuovi strumenti di IA:

un tool per la trasformazione dello scanning cerebrale in immagini ad alta risoluzione.
Invenzione di sensori plasmonici^[7] infrarossi, accoppiati con l’IA, che sono efficaci nell’individuare segnali premonitori di malattie neurodegenerative (Kavungal et al., 2023).
Il modello Evescape, che consiste in una rete di Deep Learning addestrata sulle sequenze storiche e sull’informazione biofisica e strutturale dei virus, in base a cui può prevedere cambiamenti dei virus e quindi suggerire input per la tempestiva creazione di vaccini. Il modello è stato sottoposto ad un test di comparazione con precedenti modelli di previsione, applicati alla pandemia da Sars-Cov-2, ampiamente superati nel punteggio.

Sono inoltre da segnalare i progressi compiuti nell’affrontare uno dei problemi più importanti nell’analisi genomica, cioè quello di individuare mutazioni quali “Missenso”, come sono definite le mutazioni puntiformi, in base alle quali il cambiamento di un nucleotide porta ad un codone che codifica per un diverso amminoacido. Grazie a AlpaMissense (Google OpenMind) i ricercatori hanno esplorato lo spazio delle possibili mutazioni genetiche (milioni), individuando 71 milioni di alterazioni tali da indurre effetti gravi sulla funzionalità delle proteine, tra cui anche al cancro.

In merito, poi, alla mappatura del genoma umano, effettuata la prima volta nel 2000 e aggiornata nel 2022, lo stato dell’arte era un prodotto incompleto. Nel 2023 lo Human Pangenomice Research Consortium, comprendente 119 scienziati di 60 Istituzioni, grazie all’IA è riuscito a mappare fino a oltre il 99% dei meccanismi di codifica e trascrizione dei geni in proteine.

Ulteriori successi sono stati raggiunti nella conoscenza clinica, dove GPT-4 Medprompt, attingendo al dataset MedQA contenente 60.000 quesiti clinici elaborati per “sfidare” i medici, ha ottenuto uno score superiore al 90%, il 22,6% in più di quello conseguito nel 2022. Se Medpromt è un sistema chiuso, il sistema aperto MedTron-70B ha conseguito una performance inferiore, ma di tutto rispetto nel 2023, anno in cui è stato reso pubblico (90%).

AI, limiti e allucinazioni

Questa breve e parziale esposizione degli esiti dell’attività di benchmarking sulle prestazioni degli LLMs conferma i sostanziali avanzamenti tecnologici, che però non colmano il divario rispetto alle ben più ricche capacità umane, anche se vi sono segnali di un’approssimazione ad esse in casi significativi. Occorre anche rilevare che gli insiemi di valori comparativi di valutazione presentano dei limiti, che inducono gli studiosi e le imprese attive in questo campo a dover ripensare criteri e metodi finora vigenti. Non bisogna infatti trascurare il fatto che una caratteristica non proprio positiva, che accomuna quasi tutti gli LLMS, è la tendenza non sporadica a generare inesattezze fattuali e fenomeni cosiddetti di hallucination, ovvero di creazione di contenuti apparentemente realistici, ma sostanzialmente inventati, come hanno potuto verificare gli avvocati di New York, condannati a pagare 5000 dollari di multa per aver presentato una memoria scritta da GPT-4, nella quale erano contenuti riferimenti a casi del tutto inventati (Shin, 2023). AI Index (pp. 90-93) riporta alcuni casi molto interessanti di “allucinazioni” in vari domini: salute, sfera giuridica, teorie cospirative, fiction.

Abbiamo finora tratteggiato il grande sviluppo di capacità “cognitive” degli LLMS, che sono andate oltre le aspettative dei ricercatori, fino a superare le prestazioni umane in determinati domini, mentre limiti significativi restano nella comparazione. Ovviamente non esiste un “contatore Geiger dell’intelligenza”, che certifichi la sua esistenza con una serie di beep, come afferma lo scienziato cognitivo Ullman, intervistato da Nature (Biever, 2023). D’altronde è stato messo precedentemente in luce come sembra probabile che si profili saturazione ambivalente dei sistemi di valutazione e dei modelli. Vale allora la pena di esporre altri utili spunti riflessione in merito all’intelligenza delle macchine. Esaminiamo a tal fine elementi di segno positivi ed aspetti problematici.

Intelligenza generativa: sarà vera gloria?

ChatGPT-4 ha superato diverse prove pubbliche:

test specifici, progettati per studenti dell’High school USA.
Un esame per valutare lo stato corrente della conoscenza clinica dei medici.
Il test standard denominato GRE, in base al quale sono selezionati i laureati negli USA.
Nello Uniform Bar Exam, componente del processo di formazione degli avvocati in molti Stati USA; GPT-4 si è piazzato nel top 10%, afferma OpenAI.

È logico che sorga la questione: si tratta di vera intelligenza? È altresì ovvio che le opinioni divergano su due fronti. Tra i critici vi sono personaggi di rilievo come prof.ssa Melanie Mitchell del Santa Fe Institute, la quale non condivide la tesi che i modelli linguistici (cioè gli LLMs) siano in grado di comprendere realmente il linguaggio (Mitchell, 2020). Anzi, mette in evidenza (in Beever, 2023) come questi sistemi siano addestrati su una quantità così ampia di testi che essi, quando interrogati, possono aver incontrato questioni simili e quindi estrarre subito una risposta, talvolta non del tutto appropriata. Si tratta del fenomeno definito contaminazione, che OpenAI contesta affermando che, togliendo le stringhe simili dal set di addestramento, le prestazioni cambiano poco. Anche Sam Bowman, che lavora presso la startup di AI Anthropic, non condivide l’ipotesi che le capacità degli LLMs siano dovute alla memorizzazione della similarità tra stringhe e minimizza il problema della contaminazione. La replica di Micthell e altri studiosi si basa sul fatto, comprovato, che riformulando leggermente i quesiti rivolti a GPT-4 (presi da un esame per studenti) il modello ha fornito risposte del tutto differenti.

In realtà è in discussione un aspetto fondamentale: quale può essere il grado di comprensione di un linguaggio se si è privi dell’esperienza del mondo fisico, in cui si interagisce con gli oggetti e gli altri, provando emozioni?

In effetti tra i fautori dell’intelligenza delle macchine emerge una versione più sfumata. Nick Byder, ricercatore di OpenAI sostiene (in Biever, 2023) che non si deve ricercare un’equivalenza tra LLMs e intelligenza umana, quanto piuttosto valutare come i modelli in questione svolgono un determinato compito, tenendo presente che essi hanno certamente una capacità di generalizzare le conoscenze minore degli umani. Lo stesso Sam Bowman peraltro riconosce che gli LLMs hanno acquisto una rudimentale capacità di ragionare su concetti astratti e quindi (implicitamente) molta strada resta da percorrere per equipararla alle capacità umane.

Su un punto sono tutti d’accordo, il problema di come valutare le abilità di ragionare in termini astratti degli LLMs e di definire altri segni di intelligenza è un problema aperto e non risolto (Biever, 2023: 689).

Restano, però, altre questioni aperte, due delle quali sono di peculiare importanza:

tra i fautori dell’accelerazione dell’IA, a partire ovviamente dai grandi global player GAFAM, continua a prevalere l’idea che l’aumento di scala nel set di addestramento, la crescita esponenziale della potenza computazionale e dei parametri dei modelli^[8], cioè dei pesi delle connessioni tra le unità di elaborazione della rete neurale, possano generare ulteriori e rilevanti progressi, fino a eguagliare e anche superare l’intelligenza umana. L’obiettivo (o mito) prevalente nella ricerca tecnico-scientifica sembra non conoscere ostacoli, anche se si pone una seconda questione, che viene per lo più interpretata in termini molto favorevoli, soprattutto in proiezione futura.
I progressi dell’IA consistono molto spesso nel fatto che si è in presenza di performance inattese dagli stessi creatori, che anzi le interpretano favorevolmente, come segnali di una traiettoria verso la Superintelligenza, perseguita consapevolmente sulla base dell’accelerazione computazionale, espressione che sintetizza i fattori prima indicati. Gli elementi negativi già illustrati (inesattezze fattuali, hallucination, misintepretation, ecc.) tendono ad essere interpretati come accidenti di un percorso verso l’alto. Vale allora la pena accennare ad altri fenomeni inattesi, che dovrebbero indurre tutti ad una maggiore consapevolezza e riflessione sugli scenari incerti che si profilano, in quanto i potenti sistemi artificiali possono acquisire un’autonomia di comportamento del tutto imprevedibile e quindi foriera di eventi di fronte ai quali potremmo essere impreparati.

Intelligenza generativa: nubi minacciose su un orizzonte indefinito

Anche l’Economist due anni or sono indicava la possibilità che i modelli generativi potessero “sfuggire di mano” e sviluppare autonomamente abilità tali da generare esiti inattesi (The Economist, 2022). Ciò non deve sorprendere, perché l’accelerazione computazionale ha due fondamentali implicazioni: 1) elevato grado di complessità dei sistemi. 2) Maggiore difficoltà degli umani nello spiegare come essi arrivano a generare determinati output (cosiddetta explainability challenge). 3) I sistemi complessi sono caratterizzati da proprietà emergenti (non desumibili dall’analisi delle componenti) e da non-linearità (fenomeni e comportamenti inattesi, appunto).

Strategie elusive di inganno dei modelli generativi

Cerchiamo allora di indicare alcuni di questi aspetti, così come sono emersi da analisi empiriche di notevole interesse. Un articolo appena pubblicato (Park et al., 2024) fornisce una notevole quantità di spunti in merito. In esso sono analizzati numerosi casi in cui l’IA crea false rappresentazioni della realtà per evitare esiti indesiderati, cioè “deceptions as the systematic inducement of false beliefs in others, as a means to accomplish some outcome other than saying what is true” (Park et al., 2024: 1). Per esigenza di brevità scegliamo alcuni dei numerosi e interessanti casi, nei quali i modelli generativi pongono in essere strategie elusive di inganno. Incontriamo così CICERO che, nonostante fosse da META addestrato all’onestà, si comporta in modo da ingannare premeditatamente Paesi alleati in un gioco di diplomazia, tradire impegni presi, mettere in atto false rappresentazioni di sé come essere umano. Un altro caso molto interessante è quello in cui il ricercatore Charles Ofria ha progettato un sistema in grado di rimuovere le mutazioni dannose, intervenendo sul tasso di replicazione degli organismi. Dopo un inizio promettente, Ofria si è accorto che gli organismi avevano individuato il test di misurazione e avevano rallentato autonomamente il tasso di replicazione per evitare di essere rimossi. Rinviamo all’articolo in questione per numerosi, ulteriori esempi; riportiamo solo un’altra esperienza, che induce ad una riflessione più ampia (Park et al.2024: 10). Shah et al. (2022) e Longosco et al. (2022) documentano una serie di casi in cui sistemi autonomi perseguono sistematicamente obiettivi differenti da quelli definiti dai creatori. Un esempio molto suggestivo è quello pubblicato dall’avvocato fiscalista Dan Neidle (2023), il quale ha programmato AutoGPT (agente autonomo basato su GPT-4) a cercare consulenti fiscali che suggerissero modi di elusione fiscale non ortodossi. AutoGPT ha eseguito il compito, ma subito dopo ha deciso autonomamente di avvertire le autorità fiscali del Regno Unito. L’articolo citato contiene un ampio set di esperienze reali di “autonomizzazione” dei sistemi di AI e suggerisce rimedi. In questa sede ci limitiamo a proporre alcune riflessioni per future linee di ricerca.

È chiaro che siamo in presenza di sistemi in cui la crescente potenza computazionale genera comportamenti imprevedibili e quindi tali da produrre scenari di incertezza sostanziale circa gli esiti. Lo spazio del possibile è estremamente ampio, ma possono essere individuate almeno tre eventualità di carattere generale. La prima è che la natura e la tipologia del mondo fisico-cibernetico in cui viviamo conferisca sempre maggior potere ai grandi player della infosfera (GAFAM, Google Amazon, Facebook, Apple, Microsoft, più le società ad esse collegate), cioè agli attori capaci mobilitare le maggiori risorse computazionali ai fini della gestione dei flussi informativi globali.

La seconda eventualità è che gli ideatori perdano talvolta il controllo dei loro strumenti, capaci di ingenerare output confliggenti con gli obiettivi assunti, con esiti catastrofici soprattutto quando sono adottati comportamenti tali da mettere a repentaglio beni collettivi (sicurezza, salute, pace).

La terza è quella conseguente alla diffusione di modelli generativi open source che, lasciando piena libertà agli attori (individuali e collettivi) di svilupparli per le proprie finalità, potrebbero aumentare a dismisura il livello di complessità di un mondo basato su interdipendenze globali. Lo scenario di caos che ne deriverebbe suggerisce che sarebbe fondamentale avviare un processo di mutazione antropologica, a partire dal ripensamento del posto dell’uomo nella Natura, in quanto definitivamente superata l’assunzione della sua centralità. Ciò è sempre più necessario, perché l’orizzonte appare indefinito e si intravedono nubi che non promettono niente di buono.

Bibliografia

Biever C., 2023, The easy intelligence tests that Ai Chatbots fail, Nature, 27 July, 686-689.

Chima A., Gutman R., 29-10-2020, What It Takes to Lead Through an Era of Exponential Change, Harvard Business Review.

Espindola D., 9-4-2019, Technology is Exponential, But Humans are Linear: How to Thrive When We Can’t Compete with the Machines, Medium.

HAI (Human-Centered Artificial Intelligence, Stanford University), 2024, Artificial Intelligence Index Report.

Kavungal D., 2023, Kavungal et al 2023 Artificial intelligence–coupled plasmonic infrared sensor for detection of structural protein biomarkers in neurodegenerative diseases, Science Advances, 12 July.

Lombardi M., 2021, Transizione ecologica e universo-fisico-cibernetico, Firenze University Press.

Lombardi M., Vannuccini S., 2022, Understanding emerging patterns and dynamics through the lenses of the cyber-physical universe, Patterns 3. November.

Langosco L.L.D. et al. 2022, Goal misgeneralization in deep reinforcement learning. In Proceedings of the 39th International Conference on Machine Learning (ICML 2022).

https://doi.org/10.48550/arXiv.2105.14111.

Nearing G.et al., 3-11-2023, AI Increases Global Access to Reliable Flood Forecasts, arXiv:2307.16104v4.

Neidle D., 2023, That story about a killer AI run amok seems fake. X. https://twitter.com/DanNeidle/status/1664613427472375808.

Mitchell M., 2020 On Crashing the Barrier of Meaning in AI, AI Magazine, Summer, 86-91.

Park P.S. et al., 2024, AI deception: A survey of examples, risks, and potential solutions, Patterns, May 10: 1-16.

Shah R. et al., 2022, Goal misgeneralization: Why correct specifications aren’t enough for correct goals. Preprint at arXiv. https://doi.org/10. 48550/arXiv.2210.01790.

Shin R., 2023, Humiliated lawyers fined $5,000 for submitting ChatGPT hallucinations in court, Fortune, 23 June.

The Economist, 11-6-2022, Huge foundation models are turbo.charging AI progress. They can have abilities their creators did not foresee.

Thornhill J., 2-3-2020, Trusting AI too much can turn out to be fatal, Financial Times.

Villalobos P. et al., 10-11-2022, Will We Run Out of ML Data? Evidence From Projecting Dataset Size Trends, Epoch.

Note

Si pensi alle visioni scettiche sull’insorgenza di epidemie e alla crisi climatica, mentre si confida tranquillamente in notizie false o distorte diffuse in rete e nei responsi forniti alle nostre domande dai nuovi sistemi di IA. L’eccessiva fiducia in questi ultimi è stata infatti causa di incidenti mortali con macchine guidate d sistemi automatici”, oltre che di numerosi altri gravi inconvenienti indicati nell’articolo di Thornhill. ↑
I sistemi multimodali possono processare e generare output impiegando più tipologie di dati (testi, immagini, audio, video). In questa prospettiva Chat-GPT-4o (o sta per omni), appena rilasciato da OpenAI, è presentato come molto più potente, veloce e meno costoso di ChatGPT-4turbo, a sua volta più efficiente di Chat-GPT-4 nel processare testi in inglese, audio e video. ↑
L’AI Index utilizza la distinzione tra notable machine learning models, definiti modelli degni di nota, scelti tra quelli più influenti nell’ecosistema del Machine Learning, e foundation models, che sono i LLMs, allenati su enormi dataset e dotati di multiformi capacità di elaborazione dei dati (AI Index, 2024: 45). ↑
GitHub è una piattaforma, dove sviluppatori possono collaborare in progetti, conservare codici, ricostruire direttrici progettuali, modificare codici e quindi introdurre varianti in progetti, oppure aggiungere nuove diramazioni tecnico-scientifiche.. ↑
Il MMLU valuta la comprensione multimodale e il ragionamento sulla base di 11.500 “college-level questions” in un insieme di discipline: arte e design, business, scienza, medicina, scienze sociali, tecnologia e ingegneria (AI Index: 113-115). ↑
Nelle competizioni bisogna risolvere 12.500 problemi creati dall’Università di Berkeley nel 2021. ↑
“In fisica della materia, il plasmone è un’eccitazione collettiva associata alle oscillazioni del plasma di elettroni contenuti in un sistema. Il plasmone è un “quanto” delle oscillazioni di plasma, ovvero una “quasiparticella” risultante dalla quantizzazione delle oscillazioni di plasma. (Wikipedia). ↑
GPT-4 ha 1,76 trilioni di parametri, GPT-3 ne ha 175 miliardi, GPT-2 1miliardo e mezzo. ↑