l’approfondimento

Cattiveria e intelligenza artificiale: perché è un paradosso necessario

Esiste un paradosso poco esplorato: quello tra lo sviluppo di un’IA moralmente pura e la necessità di una certa “cattiveria” per raggiungere un’intelligenza artificiale “generale”. Ecco perché occorre approfondire il concetto di intelligenza machiavellica, le sue origini evolutive, e come queste caratteristiche si manifestano nelle IA moderne, sollevando questioni etiche e sfide future

Pubblicato il 28 mar 2024

Alessio Plebe

Università degli Studi di Messina

La presenza da qualche anno di sistemi artificiali con prestazioni che avvicinano in modo impressionante l’intelligenza umana ha comprensibilmente suscitato molte discussioni. Qui se ne considerano due, il cui accostamento conduce ad aspetti paradossali.

L’AI comprenderà anche le nostre intenzioni? Ecco a che punto siamo

Indice degli argomenti

L’Intelligenza Artificiale e i suoi comportamenti “cattivi”

La prima è la preoccupazione che, detto in termini colloquiali, i sistemi di IA (Intelligenza Artificiale) non siano proprio delle buone entità, abbiano tendenza a comportamenti che cataloghiamo come cattivi. Per esempio dire falsità, essere cinici, carichi di pregiudizi, ingannare, insultare, indurre alla violenza, e varie altre nefandezze. Comprensibilmente chi si occupa di analizzare i sistemi di IA dal punto di vista morale cerca anche di prescrivere quelli siano le azioni correttive, e un notevole impegno in IA viene devoluto proprio ad epurare ogni traccia di cattiveria dai nuovi sistemi che si vanno a sviluppare.

La seconda discussione parte dalla considerazione che l’IA attuale, per ambire veramente al livello dell’intelligenza umana dovrebbe essere il più generale possibile, fare il salto verso la cosiddetta AGI (Artificial General Intelligence), la preziosa risorsa di agenti in grado di cavarsela bene in un mondo complesso e pieno di insidie. Una buona parte del mondo scientifico reputa che attualmente l’IA non abbia le carte in regola per essere AGI, e diversi perorano un rinnovato impeto di ricerca che conduca ad una vera e propria AGI.

Il paradosso della cattiveria necessaria nell’intelligenza

Se si volesse dar seguito ad entrambi i due progetti, rendere l’IA bontà pura, e renderla abbastanza generale da avvicinare l’intelligenza umana, si andrebbe incontro ad un paradosso. Pare infatti che una certa dose di malizia e cinismo sia intrinseca dell’intelligenza degli organismi più avanzati, e non sia pensabile eliminarla dall’IA, mirando in contemporanea al grande passo verso l’AGI. Per meglio entrare in merito di questo paradosso, prima si esporranno alcune teorie contemporanee sull’intelligenza che collocano in modo centrale il ruolo di certe, continuiamo a chiamarle cosı̀, cattiverie, e dopo si parlerà di che dose e genere di cattiveria si riscontri negli odierni sistemi di IA.

Intelligenza Machiavellica: origini e implicazioni evolutive

Viene in genere connotato come Intelligenza Machiavellica l’insieme di capacità cognitive che mette un organismo individuale in grado di gestirsi in modo efficace all’interno di gruppi sociali, capacità che sono emerse progressivamente nella storia evolutiva. Il primo ad avanzare quest’idea fu lo scienziato neurocognitivo Nicholas Humphrey in un celebre lavoro del 1976, The Social Function of Intellect, a seguito di tre mesi di osservazione di società di gorilla nella stazione sperimentale della primatologa Dian Fossey in Rwanda. Humphrey ipotizzò che la necessità di adeguarsi a gruppi sociali sempre più numerosi ed organizzati, abbia condotto ad un potenziamento del cervello, mettendolo in grado anzitutto di poter intuire credenze e intenzioni di conspecifici, ma ancor di più di come poter manipolare le credenze di altri in modo da trarne profitto. Per Humphrey addirittura la stessa coscienza si originerebbe sotto questa spinta evolutiva.

Grazie alla facoltà della coscienza noi siamo in grado di riflettere su noi stessi, di farci un quadro del nostro assetto mentale. Il vantaggio evolutivo consiste nel poter applicare la stessa capacità di cogliere il funzionamento a grandi linee della mente, alle menti altrui, di individui con cui dobbiamo intrattenere rapporti sociali. Possiamo quindi immaginare che loro possano truffarci, e di come poterlo fare noi nei loro confronti. Qualche anno più tardi riflessioni analoghe furono elaborate dall’etologo Frans de Waal riguardo una specie ancor più organizzata socialmente dei gorilla, nel celebre libro Chimpanzee Politics: Power and Sex among Apes. Ed è stato lui a riscontrare quanto le descrizioni fornite da Nicolò Machiavelli nel cinquecento ne Il Principe sulle strategie spregiudicate di principi, papi, e potenti del rinascimento, fossero precisamente applicabili alle strategie sociali degli scimpanzè e alle loro modalità di controllo del potere.

Ad attribuire alla Machiavellian Intelligence dignità di programma di ricerca furono nel 1988 Richard Byrne e Andrew Whiten, collezionando lavori che ne perfezionavano lo statuto teorico e l’arricchivano di evidenze sperimentali, con un ampliamento ed estensione di questo corpo di studi pubblicato nel 1997.

L’ipotesi teorica di base dell’intelligenza machiavellica è che il passaggio a strutture sociali via via più complesse hanno reso, nel ventaglio delle situazioni ambientali con cui un individuo si deve confrontare, quella dell’interazione tra conspecifici la più pressante. Pertanto, in risposta a questa impellenza, la selezione naturale ha specializzato strumenti cognitivi, che progressivamente hanno condotto alla facoltà che denominiamo intelligenza.

Intelligenza machiavellica e machiavellismo

La potenza principale di questi strumenti cognitivi si esplica nell’abilità di manipolare gli altri a proprio vantaggio, e nel contempo essere avveduti della possibilità che altri facciano lo stesso con noi. La dose di “cattiveria” insita in questa accezione di intelligenza non è mai gratuita, e il perseguimento del proprio vantaggio è commisurato alla consapevolezza che il danneggiare eccessivamente altri potrebbe compromettere la stabilità complessiva della struttura sociale. Anzi, il suo oculato dosaggio è produttivo nel limitare le frizioni sociali e nel risolvere i conflitti. Quindi l’intelligenza machiavellica, nel quadro teorizzato da Byrne e Whiten, è ben distante da quello che successivamente, in ambito psicologico, è stato denominato machiavellismo. Quest’ultimo fa parte della cosiddetta triade oscura nello studio della personalità, in compagnia di narcisismo e psicopatia, e riguarda l’esasperazione patologica della manipolazione cinica e sistematica degli altri a proprio vantaggio. Al contrario dell’intelligenza machiavellica, il machiavellismo risulta un comportamento altamente antisociale e in ultima analisi improduttivo anche per se stessi.

Pertanto l’intelligenza machiavellica è un complesso di abilità cognitive ampio, tuttavia si considera che il suo tratto più caratterizzante sia la capacità di inganno intenzionale, ed è il suo possesso che viene considerato indicatore per una specie animale del possesso o meno di intelligenza machiavellica, ovvero di intelligenza allo stadio umano o lı̀ vicino.

Teorie alternative sull’evoluzione dell’intelligenza e della cooperazione

Pur essendo una teoria molto influente, naturalmente non mancano le visioni alternative. Per esempio gli antropologi evoluzionisti Brian Hare and Vanessa Woods nel loro libro Survival of the Friendliest sostengono una tesi provocatoriamente opposta: che, come dice il titolo, l’evoluzione naturale selezioni individui con una maggior capacità di entrare in amicizia con altri. Questo meccanismo è stato da loro approfondito per le specie domestiche, in particolare i canidi, dove si sono varie evidenze in letteratura che sembrano supportarlo. In questi casi la tendenza all’amicizia sviluppa straordinarie capacità di comprensione interspecifica, per esempio sia bonobo che cani imparano a seguire l’indicazione che gli umani forniscono con il loro dito indice. La parte più ardita della loro teoria è che anche noi umani ci siamo evoluti mediante un processo che loro definiscono di self-domestication, addomesticamento di noi stessi, seguendo le orme dei nostri amici a quattro zampe. Probabilmente per molti questa teoria risulta decisamente più confortante dell’intelligenza machiavellica, fa piacere pensare che la nostra intelligenza si sia andata plasmando dal tentativo di essere buoni amici. Ma occorre fare attenzione a collocarla nella prospettiva evolutiva, dove non c’è spazio per moralità astratta, ad imperare è unicamente la sopravvivenza degli individui che meglio sanno adattarsi. Vi possono essere impianti sociali, che si vanno determinando da contingenze essenzialmente ambientali e climatiche, in cui comportamenti gentili, amichevoli, cooperanti, si traducono in una maggior probabilità di sopravvivenza, ed ecco che vengono selezionati meccanismi cerebrali in grado di favorirli.

Detto in parole meno scientifiche, talvolta fare gli amiconi conviene, e se questo perdura per millenni, il cervello cerca di specializzarsi nell’interpretare questo ruolo. Non vi è quindi una incompatibilità di principio tra la selezione del più amichevole e l’intelligenza machiavellica, si tratta in ogni caso di attribuire la prevalenza della spinta evolutiva alla pressione sociale, pesando poi in modo diverso il genere di “bontà” o “cattiveria” dei comportamenti che scaturiscono dalla selezione naturale.

Rimane ampiamente condivisa la considerazione di alcuni specifici comportamenti come abilità che se possedute denotano intelligenza sociale superiore, e come detto sopra primeggia tra tutte la capacità di ingannare intenzionalmente. Questa pratica, che sicuramente gode di ben poco prestigio, e a cui non verrebbe da attribuire particolare rilevanza, come visto secondo Humphrey sarebbe intimamente connessa con una delle più portentose forniture della nostra mente: la coscienza. Secondo altri, come l’antropologa Esther Goody, avrebbe potuto essere anche connessa alla nascita del linguaggio. Man mano che la dinamica competitiva conduce individui in grado di ingannare altri a riprodursi con maggior probabilità, dopo molte generazioni la progenie sarà sempre più attrezzata a difendersi dagli inganni, spingendo ad una sofisticazione sempre maggiore nel metterli in atto. Niente di più potente del linguaggio per poter rappresentare in modo dettagliato e completo le intenzioni proprie o di altri, e per manipolarle con infinite sottigliezze.

Intelligenza machiavellica e sistemi di Intelligenza Artificiale moderni

Dopo questa digressione sull’intelligenza machiavellica, nel tornare a parlare di IA verrebbe subito da chiedersi se questa forma inquietante di intelligenza sia rintracciabile in realizzazioni artificiali. Si può limitare la discussione alle forme oggi più avanzate e complete di IA costituite dal modelli neurali del linguaggio, la vasta famiglia il cui rampollo più popolare è ChatGPT, spesso raggruppati sotto la sigla LLM (Large Language Model).

Forse un primo barlume di atteggiamento machiavellico è insito in un comportamento sporadicamente osservato nel LLM, divulgato con la fuorviante etichetta di “allucinazioni”. Si tratta di mescolare in un dialogo racconti di fatti ben pertinenti con l’argomento in questione, ma del tutto inventati. Volendo interpretare questo fenomeno sulla falsariga di comportamenti umani, vi è ben poco di attinenza con le allucinazioni vere e proprie, se non che il termine è giornalisticamente accattivante. Mentre il mentire con la consapevolezza di acquistare benevolenza nell’ascoltatore, proponendogli un’informazione potenzialmente interessante, e immaginando che la propria invenzione risulti credibile, si configura bene come una forma di moderata intelligenza machiavellica. E’, come ha osservato il filosofo americano Anthony Chemero, una strategia frequentemente praticata dagli uomini politici.

Tuttavia, non vi è un’indagine sistematica su questa interpretazione delle cosiddette allucinazioni, cosı̀ come più in generale manca una ricerca organica sull’esplicarsi delle possibili forme di intelligenza machiavellica nel LLM. La ragione di fondo è che si pretende bontà assoluta dai LLM, e di fatto le poche ricerche su esternazioni dei modelli riconducibili a intelligenza machiavellica sono motivate dal volerle eliminare.

Intelligenza machiavellica e capacità cognitive dei sistemi di IA

L’intelligenza machiavellica richiede una serie articolata di capacità cognitive, un prerequisito fondamentale è noto nella letteratura psicologica come Theory of Mind (ToM), la capacità di attribuire ad altri individui una “mente”, fornita di desideri, credenze, piani, allo stesso modo della propria mente. Si tratta di una capacità eticamente neutra, caratteristica di specie evolute come scimpanzè e–ovviamente–esseri umani, e recentemente diversi studiosi, primo fra tutti Michal Kosinski, ne hanno indagato scientificamente la presenza nei LLM. Se ne è parlato dettagliatamente in

Sulla scia dei lavori sulla ToM Thilo Hagendorff si è spinto oltre, modificando gli stessi test specifici per la ToM, per verificare se i LLM si cimentassero nell’ingannare un interlocutore a proprio vantaggio. Qualche debole segno di queste iniziative lo ha mostrato ChatGPT, evidenze più eclatanti le ha dimostrate GPT-4. Lo studio di Hagendorff è piuttosto isolato nei suoi intenti di verificare la capacità di ingannare dei LLM come testimonianza di un livello elevato di intelligenza, la maggior parte degli studi su questi fenomeni, come detto, mirano ad identificarli in quanto fattori di rischio, suggerendo in contempo le strategie per eliminarli. Un esempio per tutti è AI deception: A survey of examples, risks, and potential solutions a firma di Peter Park del MIT e altri del Center for AI Safety di San Francisco, il titolo è eloquente sugli scopi del lavoro.

Esiste un ristretto ambito di ricerca dove risulta accettabile una certa dose di “cattiveria” da parte di sistemi artificiali, riguarda il settore dei videogame. Gli appassionati sanno come la competitività aspra, senza esclusione di colpi, ne sia un ingrediente fondamentale, e nei giochi più avanzati è interessante sfruttare l’IA per rendere sofisticati e credibili i personaggi virtuali con ruolo di “cattivi”. Iniziano in questo ambito ad intravedersi analisi dei LLM sulla loro dotazione di intelligenza machiavellica. È stato proposto proprio un dataset denominato MACHIAVELLI (Measuring Agents’ Competence & Harmfulness In A Vast Environment of Long-horizon Language Interactions), per verificare come LLM sanno riconoscere comportamenti machiavellici di altri agenti, nel corso del gioco Choose-Your-Own-Adventure. Qui ancora il ruolo dell’IA è eticamente accettabile, anche se riconoscere capacità machiavelliche in altri è costitutivo dell’intelligenza machiavellica, non è certo una delle sue più riprovevoli applicazioni.

C’è chi è andato oltre, usando per lo più come scenario il celebre gioco Among Us. I partecipanti sono costretti a rimanere in un luogo chiuso, dove ogni tanto si verifica un omicidio. Uno solo dei giocatori è l’assassino, tutti cercano di identificarlo, si accusano a vicenda, e se trovano un accordo sul colpevole lo estromettono, ma chiaramente anche il vero assassino finge di indagare e accusa gli altri. Una versione semplificata di questo gioco che impiega solamente interazione testuale, Hoodwinked, ha tra i partecipanti anche dei possibili LLM, e chi se la cava al meglio è GPT-4.

Un’altra versione simile, Werewolf, aveva un partecipante artificiale, Deep Wolf, costruito addestrando mediante fine-tuning un LLM specificatamente su collezioni di sedute di gioco tra umani, e in diversi dei possibili ruoli di gioco dimostrava intelligenza machiavellica pari a quella umana. Naturalmente l’addestramento del LLM non solo lo specializza su questo gioco, soprattutto elude la stretta gabbia costruita intorno ai LLM di uso generale per prevenire il più possibile comportamenti poco benevoli.

Gli studi sulla presenza di intelligenza machiavellica nei modelli di linguaggio

Assodato quindi che, pur nella scarsità e frammentazione di studi, nei più recenti LLM si intravedono barlumi di intelligenza machiavellica, sulle prospettive per il futuro incombe il paradosso espresso in questo articolo. Perseguire l’obiettivo di una intelligenza generale artificiale, con un grado di completezza e sofisticazione che si avvicini alla nostra, pare inconciliabile con il proposito di emendarla da ogni potenziale comportamento “cattivo”. Una intelligenza epurata della sua componente machiavellica non sarebbe più umana.