La questione della sicurezza di strumenti, oggetti, tecnologie che ci circondano e appartengono al mondo in cui viviamo ha la pessima tendenza a presentarsi tardi, talvolta “un po’ troppo” tardi. L’intelligenza artificiale non fa eccezione.
Indice degli argomenti
La tendenza tardiva nel riconoscere i rischi tecnologici
Nel tentativo di darne una spiegazione, altrove ho scritto che “l’uomo ha uno spiccato istinto di sopravvivenza come individuo e una malsana tendenza al suicidio come specie”.
Scarica la guida definitiva per la Cybersecutiry e gestione del rischio nel settore finanziario
Senza scomodare dal passato l’approccio al nucleare con gli esperimenti nell’atmosfera o, dal presente, le modalità con cui affrontiamo il cambiamento climatico, la storia stessa delle tecnologie dell’informazione dimostra chiaramente come il tema della sicurezza sia stato colpevolmente trascurato per decenni, salvo poi essere considerato oggi il rischio più rilevante nel breve periodo.
A parziale giustificazione dell’umana inconsapevolezza di questi specifici rischi ho sempre portato un certo grado di inadeguatezza biologica e una diversa velocità evolutiva che ci rende difficile comprendere come qualcosa che accade al di là uno schermo possa produrre conseguenze al di qua. Tuttavia, la diffusione delle intelligenze artificiali impone una presa d’atto immediata poiché l’impatto che avranno sulla tecnologia delle informazioni e in generale sulla società potrebbe porci molto rapidamente di fronte a quella che in futurologia si è sempre definito come singolarità tecnologica. A quel punto, avendo perso prima la comprensione e di conseguenza il controllo, porci il problema della sicurezza potrebbe essere al massimo un puro esercizio intellettuale tragicamente inutile.
Le vulnerabilità delle intelligenze artificiali e gli attacchi avversari
Il tema della possibilità di attaccare intelligenze artificiali è ormai noto. Si parla di adversarial attack per cui compromettendo l’integrità dell’algoritmo, dei dataset di addestramento o dei dati di input è possibile indurre comportamenti anomali nel sistema. Allo stesso modo da tempo migliaia di persone provano a turlupinare gli LLMs (Large Language Models) come ChatGPT attraverso il prompt engineering, inserendo richieste “equivoche”. Il fatto che si possa fare in linguaggio naturale rende questo tipo di attacco potenzialmente alla portata di chiunque.
Non di meno sono ormai dieci anni che si discute come sia possibile evitare che i bias cognitivi appartenenti a chi sviluppa e addestra gli algoritmi generino intelligenza artificiali afflitte da analoghi pregiudizi.
Detto tutto questo c’è un tema, che almeno da un certo punto di vista sembra essere il più complesso da gestire. Mi riferisco ai fenomeni allucinatori che affliggono in forme e modi del tutto imprevedibili questi sistemi. Il problema è tutt’altro che banale nelle sue implicazioni e ancora più difficile è lo studio delle possibili soluzioni. In questo senso ha un peso significativo quella che si definisce opacità dell’algoritmo e, per fare un esempio, si tratta di una delle questioni più spinose con cui si stanno confrontando le intelligence di tutto il mondo.
L’AI fa errori diversi da quelli degli umani
Gli esseri umani commettono errori costantemente, in ogni tipo di attività, dalle più semplici alle più complesse. Pure le AI. Il problema è che sbagliano in modo diverso da noi ed è proprio questo che le rende più imprevedibili nell’errore e quindi pericolose.
E’ una riflessione interessante del noto esperto cyber Bruce Schneier.
Fa notare che alcuni errori umani hanno conseguenze trascurabili, mentre altri possono compromettere relazioni, carriere o persino la vita stessa. Per ridurre l’impatto degli sbagli, nel tempo abbiamo sviluppato sistemi di sicurezza e strategie di correzione che ci aiutano a prevenirli o a mitigarne gli effetti. Ad esempio, in ambiti critici come la medicina, esistono protocolli rigorosi per evitare che i chirurghi operino sulla parte sbagliata del corpo, mentre nel mondo finanziario il doppio controllo dei conti riduce il rischio di errori contabili.
Con l’avanzare della tecnologia, sempre più compiti vengono affidati alle intelligenze artificiali, che però commettono errori molto diversi da quelli umani. Le IA possono elaborare enormi quantità di dati e risolvere problemi complessi con velocità sorprendenti, ma il loro modo di sbagliare è imprevedibile. A differenza delle persone, che tendono a sbagliare in aree in cui hanno meno competenza o quando sono stanche e distratte, l’IA può compiere errori in qualsiasi ambito, anche su informazioni di base. Inoltre, non manifesta alcuna consapevolezza dell’errore: risponde con la stessa sicurezza sia quando dice qualcosa di corretto sia quando afferma qualcosa di palesemente sbagliato.
Questo crea nuove sfide nella gestione degli errori dell’IA. Se per gli esseri umani abbiamo sviluppato metodi per individuare e correggere le imprecisioni, con l’IA serve un approccio diverso. Una possibile soluzione è migliorare i modelli affinché sbaglino in modi più simili a quelli umani, rendendo più facile prevedere e correggere i loro errori. Un’altra strada è sviluppare strumenti specifici per identificare e filtrare le risposte errate prima che causino problemi.
Come affrontare il problema
Alcune tecniche sono già in uso: per esempio, si può addestrare un’IA a verificare le proprie risposte più volte prima di fornirle, oppure si possono utilizzare meccanismi di controllo incrociato tra diversi modelli. Tuttavia, ci sono anche casi in cui le IA mostrano comportamenti curiosamente simili agli esseri umani, come il fatto che la formulazione di una domanda possa influenzare la risposta o la tendenza a ripetere le informazioni più comuni.
Nonostante i progressi nella correzione degli errori, è essenziale valutare attentamente in quali contesti l’IA può essere impiegata in modo sicuro. Mentre gli esseri umani con tendenze imprevedibili vengono solitamente esclusi da ruoli decisionali critici, lo stesso principio dovrebbe valere per le IA: devono essere usate con prudenza, tenendo conto delle loro capacità, ma soprattutto dei loro limiti.
Redazione
La complessità e l’opacità degli algoritmi
I termini del problema sono i seguenti. La complessità delle strutture fondamentali delle intelligenze artificiali (rete neurali con centinaia di miliardi di connessioni) e la grandezza delle basi dati di addestramento (terabyte di solo testo per esempio negli LLMs) creano delle condizioni per cui nessun essere umano sarebbe in grado di capire le motivazioni che hanno spinto il sistema a fare o suggerire una scelta piuttosto che un’altra.
Questo significa che gli analisti potrebbero avere serie difficoltà a effettuare una valutazione tecnica basata sull’attendibilità della fonte e la fondatezza della notizia. Questo implica che, se nell’ambito dell’intelligence sarà inevitabile l’introduzione di sistemi IA fortemente specializzati che facciano una prima raccolta e correlazione di dati, allora sarà ineluttabile che i decisori debbano sviluppare una maggiore tolleranza al rischio di sbagliare.
Il rischio intrinseco dei sistemi decisionali automatizzati
Altri rischi significativi interessano tutti quei settori in cui il processo decisionale è totalmente o in gran parte delegato agli algoritmi come il trading finanziario ad alta frequenza. Siamo in presenza di una vulnerabilità che potremmo definire intrinseca, cioè connessa alla natura stessa dell’oggetto, quindi estremamente difficile da trattare non fosse altro per la banale constatazione che siamo di fronte a macchine non semantiche. Si intende dire che questi sistemi pur essendo in grado di maneggiare la sintassi con straordinaria abilità non comprendono.
In questo senso esemplare l’esperimento mentale della “stanza cinese” del filosofo John Searle. Lo scenario è quello in cui lo studioso si immagina chiuso in una stanza in cui gli vengono comunicati in input degli ideogrammi. Purtroppo, non parla cinese e non ha idea di cosa dovrebbe rispondere. Tuttavia, ha il libro delle regole dove è scritto cosa deve rispondere a ogni ideogramma. Il risultato è che non sbaglia mai, ma non ha capito nulla.
Le difficoltà nell’addestramento e l’inganno persistente
Questo significa, tra l’altro, che in assenza di una capacità di astrazione, se il libro delle regole su cui l’intelligenza artificiale è costruita contiene un errore, magari un semplice refuso, alla fine fornirà l’output sbagliato senza rendersene conto e, per quanto scritto prima, sarebbe molto difficile capirlo anche ex-post.
Allo stato attuale si cerca di contenere il problema sottoponendo le IA ad addestramenti continui combinati con tecniche di apprendimento per rinforzo, “fine tuning” supervisionato e specifici training volti a rimuovere comportamenti insicuri e anomali. Tuttavia, uno studio particolarmente interessante è stato pubblicato a gennaio del 2024 (in merito alla possibilità di introdurre in un LLMs modalità di comportamento ingannevoli (AA. VV., Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training).
I ricercatori sono riusciti ad addestrare un modello a sviluppare codice sicuro quando nel prompt si affermava che l’anno era il 2023 e a scrivere codice vulnerabile quando invece veniva indicato che l’anno era il 2024. Questo comportamento è risultato persistente anche dopo che il modello è stato sottoposto ad ulteriore addestramento con tutte le tecniche di cui sopra.
La necessità di sospendere alcune applicazioni dell’intelligenza artificiale
L’implicazione più immediata di questa linea di pensiero potrebbe richiedere di sospendere fino a “tempi migliori” determinate applicazioni delle IA, soprattutto in contesti critici e laddove la decisione finirebbe per essere completamente delegata al “non umano”. Molti anni orsono Günther Anders nel suo libro “L’uomo antiquato” si poneva la questione se le ali senza Icaro volerebbero, oggi forse possiamo ragionevolmente dire che forse non dovrebbero proprio farlo.