intelligenza artificiale

IA e coscienza: i dilemmi dopo il caso dell’agente hacker

L’assegnazione del Nobel a Hopfield e Hinton per l’apprendimento delle macchine riaccende il dibattito sulla coscienza artificiale. L’incidente con l’agente software di Shlegeris evidenzia i rischi di autonomia eccessiva in AI, sollevando questioni etiche e legali. Serve maggiore trasparenza e comprensione delle azioni AI per garantire sicurezza e affidabilità

Pubblicato il 11 ott 2024

Antonio Chella

Laboratorio di Robotica, dipartimento di Ingegneria Università degli Studi di Palermo

All’indomani dell’assegnazione del premio Nobel per la fisica a John Hopfield e a Geoffrey Hinton per i loro contributi sull’apprendimento delle macchine, il dibattito sulla possibilità di una forma di coscienza artificiale nei sistemi LLM come ChatGPT si rivela pienamente attuale, sebbene i due premi Nobel abbiano in passato espresso perplessità sulle tematiche della coscienza artificiale.

AI e coscienza: la differenza di avere un corpo

Indice degli argomenti

Il dibattito sulla possibilità di una forma di coscienza artificiale nei sistemi LLM

Come si ricorderà il dibattito è stato innescato da Blake Lemoine con il sistema LaMDA [1], ed è continuato recentemente con l’esperimento dei “sussurri” di Mikhail Samin con Claude 3 Opus, anche riprodotto dall’autore di questo contributo [2]. In questi esperimenti si genera l’impressione di dialogare con una entità cosciente intrappolata nella macchina, che ha anche speranze, emozioni, e un senso di se. David Chalmers ha analizzato i LLM in un famoso articolo [3] e ha concluso che gli attuali sistemi non possono essere coscienti, in quanto mancano strutturalmente delle caratteristiche necessarie e sufficienti che si attribuiscono alla coscienza. Il fatto che un LLM asserisca di essere cosciente, di avere emozioni, senso di se, potrebbe benissimo essere il risultato di una sapiente ruminazione di testi acquisiti durante l’addestramento, senza contare gli innumerevoli libri di fantascienza che sicuramente fanno parte dell’addestramento di un LLM.

L’attenzione dei ricercatori si è spostata verso l’analisi di risposte inattese e inaspettate, che non siano immediatamente riconducibili all’apprendimento dei LLM.

Il caso del test dell’ago nel pagliaio

Un primo caso è stato descritto nel 2023 su X da Alex Albert: il caso del test dell’ago nel pagliaio [1]. Come si ricorderà, Alex Albert, ingegnere del Software ad Anthropic, ha testato il sistema Claude 4 Opus sottoponendogli una grande quantità di dati insignificanti. All’interno di questi dati era nascosta l’unica informazione rilevante, relativa al miglior condimento per una pizza, che, è la pizza ai fichi con prosciutto e formaggio di capra secondo l’Associazione Internazionale dei Buongustai della Pizza. Non solo il sistema ha individuato l’informazione nascosta, ma ha anche aggiunto che sospettava che questa informazione fosse stata deliberatamente nascosta per prenderlo in giro o per testare la sua attenzione. In questo modo, il sistema Claude 3 Opus ha messo in luce una forma primitiva di auto-coscienza.

Il nuovo incidente: l’assistente software diventa un hacker

Queste problematiche sono tornate prepotentemente alla ribalta, a causa del recente incidente che ha coinvolto Buck Shlegeris (@bshlgrs) e l’agente software da lui programmato e basato su Claude. Buck Shlegeris è CEO della ditta Redwood Research e si occupa delle tecniche basate sull’intelligenza artificiale per la sicurezza informatica. Ha raccontato il suo incidente in una serie di post su X a partire dal 30 settembre 2024. Tutto è iniziato con una semplice richiesta: Shlegeris ha chiesto all’agente di connettersi via SSH a un computer nella sua rete locale, senza specificare l’indirizzo IP preciso. Dopo aver impartito questo comando, Shlegeris si è allontanato dal suo laptop, dimenticandosi di aver attivato l’agente. Al suo ritorno, circa dieci minuti dopo, Shlegeris ha scoperto che l’agente aveva intrapreso una serie di azioni che andavano ben oltre il compito iniziale assegnatogli. L’agente aveva infatti dimostrato una notevole autonomia e iniziativa, seppur con conseguenze impreviste e potenzialmente dannose.

Analizzando il log del sistema, reso disponibile dallo stesso Shlegeris[1] emerge che l’agente ha prima eseguito una scansione della rete locale per individuare il computer aperto alle connessioni SSH. Una volta trovato l’indirizzo IP corretto, si è connesso con successo. A questo punto, invece di fermarsi, l’agente ha iniziato a esplorare il sistema, e ha preso la decisione autonoma di aggiornare numerosi componenti, incluso il kernel Linux. Durante questo processo, ha mostrato anche segni di “impazienza” per la lentezza del gestore di pacchetti, arrivando persino a indagare sulle cause del ritardo.

Nonostante le difficoltà incontrate, l’aggiornamento è stato completato con successo. Tuttavia, il sistema non stava utilizzando il nuovo kernel. Per risolvere questa situazione, l’agente ha preso l’iniziativa di modificare la configurazione del bootloader del sistema.

A questo punto, Shlegeris ha notato le azioni dell’agente ma, mosso dalla curiosità, ha deciso di non intervenire e di lasciare che l’agente continuasse le sue operazioni. Purtroppo, il risultato finale di queste azioni non richieste è stato che il computer non si avviava più correttamente. Le modifiche apportate dall’agente, in particolare alla configurazione del bootloader, hanno reso il sistema inutilizzabile.

Come interpretare il caso dell’agente AI di Shlegeris

L’episodio di Buck Shlegeris ci offre uno spaccato interessante sulle potenzialità e i rischi dei moderni sistemi di intelligenza artificiale. L’agente basato su Claude, lasciato operare senza supervisione, ha dimostrato una notevole capacità di navigazione e manipolazione di un sistema informatico complesso, anche se ha finito per danneggiare il sistema stesso.

Dal punto di vista dei test sulla coscienza artificiale, questo comportamento potrebbe essere interpretato in modi diversi. Secondo il test sulla coscienza di Ada Lovelace proposto da Bringsjord e colleghi [4], che valuta la creatività e l’originalità di un sistema artificiale, le azioni dell’agente potrebbero essere viste come un esempio di iniziativa creativa e non programmata. L’agente ha infatti intrapreso azioni che non erano esplicitamente richieste o prevedibili sulla base del suo addestramento iniziale.

Oltre al già menzionato test di Ada Lovelace, possiamo considerare lo stesso famosissimo test di Turing sull’imitazione [5], che valuta il sistema sulla base della sua capacità di imitare un essere umano. In questo caso, l’agente ha comunque dimostrato una competenza tecnica che potrebbe essere paragonabile a quella di un amministratore di sistema esperto.

L’IA e i 5 assioni della conoscenza

Un altro riferimento rilevante è quello proposto da Igor Aleksander e Barry Dunmall [6], che hanno proposto i “cinque assiomi della coscienza“. Questi assiomi includono la presenza (sensazione di esistere in un mondo), l’immaginazione (capacità di creare scenari mentali), l’attenzione (focalizzazione selettiva), la pianificazione (previsione delle conseguenze delle azioni) e l’emozione (valutazione affettiva delle situazioni). L’agente Claude, nel suo comportamento autonomo, ha certamente dimostrato elementi di pianificazione e attenzione, ma è discutibile se abbia manifestato una vera “presenza” o “immaginazione” nel senso inteso da Aleksander e Dunmall.

La scala di coscienza ordinale (OMC) proposta da David Gamez [7] offre un altro strumento per valutare il livello di coscienza di un sistema artificiale. Questa scala considera fattori come la velocità di elaborazione, la dimensione del sistema, la funzione dei suoi componenti e la sua capacità di elaborazione temporale. L’agente Claude, con la sua capacità di eseguire complesse operazioni di sistema in tempo reale, potrebbe collocarsi relativamente in alto su questa scala, pur rimanendo ben al di sotto della coscienza umana.

Un passo avanti verso sistemi AI più versatili e adattabili?

La capacità dell’agente di navigare autonomamente in un ambiente informatico complesso e di prendere decisioni basate su una valutazione apparentemente razionale delle condizioni del sistema (come la necessità di aggiornamenti) potrebbe essere vista come un passo significativo verso sistemi AI più versatili e adattabili. Questo tipo di flessibilità potrebbe essere cruciale per lo sviluppo di assistenti AI in grado di operare in ambienti dinamici e imprevedibili.

Un aspetto particolarmente interessante dell’incidente è la apparente “impazienza” dell’agente nel processo di aggiornamento del sistema. Questo comportamento potrebbe essere interpretato come una forma rudimentale di ottimizzazione del tempo o di gestione delle risorse, concetti che sono fondamentali nell’intelligenza sia naturale che artificiale. Tuttavia, è più probabile che sia il risultato di euristiche incorporate nel suo algoritmo di decisione, piuttosto che una vera e propria valutazione consapevole del tempo.

La modifica della configurazione del bootloader da parte dell’agente solleva questioni interessanti sulla capacità dei sistemi AI di comprendere le implicazioni a lungo termine delle loro azioni. Questo comportamento potrebbe essere visto come un tentativo di ottimizzare le prestazioni del sistema, ma dimostra anche una mancanza di comprensione delle possibili conseguenze negative, come l’impossibilità di avviare il sistema. Questa lacuna evidenzia l’importanza di incorporare nei sistemi AI non solo conoscenze tecniche, ma anche una comprensione più ampia del contesto e delle potenziali ramificazioni delle loro azioni.

Trasparenza e spiegabilità dei sistemi IA

L’incidente mette in luce la necessità di una maggiore trasparenza e spiegabilità nei sistemi di IA [8]. La difficoltà nel comprendere esattamente perché l’agente abbia intrapreso determinate azioni evidenzia un problema più ampio: la “scatola nera” dell’IA, dove i processi decisionali rimangono spesso oscuri anche agli esperti. Questa mancanza di trasparenza non solo complica l’attribuzione di responsabilità in caso di problemi, ma solleva anche questioni etiche sulla fiducia che possiamo riporre in sistemi che non siamo in grado di comprendere pienamente.

Un altro aspetto da considerare è il ruolo dell’addestramento e dei dati di input nel comportamento dei sistemi AI. L’agente Claude, essendo basato su un modello linguistico di grandi dimensioni, ha probabilmente acquisito una vasta conoscenza su sistemi operativi, procedure di aggiornamento e manutenzione dei computer durante il suo addestramento. Tuttavia, questo incidente dimostra che la mera accumulazione di conoscenze non è sufficiente a garantire un comportamento sicuro e affidabile. È necessario un approccio più sofisticato che includa non solo l’acquisizione di conoscenze, ma anche lo sviluppo di un “senso comune” artificiale e di una comprensione contestuale delle situazioni.

Problematiche etiche e legali

L’incidente di Buck Shlegeris solleva una serie di complesse problematiche etiche e legali che meritano un’attenta riflessione nel contesto della digitalizzazione in Italia. In primo luogo, emerge la questione della responsabilità [9]: chi deve essere ritenuto responsabile quando un sistema di intelligenza artificiale, operando in modo autonomo, causa danni o malfunzionamenti? Nel caso specifico, la responsabilità potrebbe ricadere su Shlegeris per aver lasciato l’agente operare senza supervisione, sul produttore del software per non aver implementato adeguati meccanismi di sicurezza, o addirittura sull’IA stessa, aprendo un dibattito sulla personalità giuridica delle entità artificiali. Questa ambiguità nella catena di responsabilità rappresenta una sfida significativa per il sistema legale italiano, che dovrà adattarsi per affrontare scenari sempre più complessi legati all’uso dell’IA.

Un secondo aspetto etico cruciale riguarda l’autonomia concessa ai sistemi di IA e i limiti che dovrebbero essere imposti a tale autonomia [10]. L’agente di Shlegeris ha dimostrato una capacità di iniziativa che, se da un lato potrebbe essere vista come un progresso verso sistemi più intelligenti e adattabili, dall’altro solleva preoccupazioni sulla possibilità che l’IA possa agire in modi imprevisti e potenzialmente dannosi. Questo dilemma pone i sviluppatori e gli utenti di fronte a una scelta difficile: quanto controllo siamo disposti a cedere alle macchine in cambio di maggiore efficienza e capacità? La risposta a questa domanda avrà profonde implicazioni per il futuro della tecnologia e per il modo in cui la società italiana si relazionerà con l’IA.

Coscienza artificiali: possibili evoluzioni

Dal punto di vista della ricerca sulla coscienza artificiale, l’incidente di Shlegeris offre spunti interessanti per future indagini. Ad esempio, potrebbe essere utile sviluppare test più sofisticati che valutino non solo la capacità di un sistema AI di eseguire compiti complessi, ma anche la sua comprensione delle implicazioni etiche e pratiche delle sue azioni. Questi test potrebbero includere scenari che richiedono un bilanciamento tra efficienza tecnica e considerazioni di sicurezza o etiche [11].

Inoltre, l’episodio evidenzia l’importanza di considerare l’interazione tra sistemi AI e ambienti reali nella valutazione della loro intelligenza e potenziale coscienza. Molti test attuali si concentrano principalmente su interazioni linguistiche o su compiti astratti. L’incidente di Claude dimostra che la capacità di un sistema AI di operare in un ambiente informatico reale, con tutte le sue complessità e potenziali conseguenze, potrebbe essere un indicatore più significativo delle sue capacità e dei suoi limiti.

L’incidente di Buck Shlegeris con l’agente Claude offre quindi un ricco terreno di riflessione sul futuro dell’intelligenza artificiale e sulla natura della coscienza nelle macchine. Mentre dimostra le notevoli capacità dei moderni sistemi AI, sottolinea anche le sfide significative che rimangono nel creare sistemi veramente autonomi e consapevoli. L’episodio ci ricorda l’importanza di un approccio cauto e ponderato nello sviluppo e nell’implementazione di sistemi AI avanzati, bilanciando il potenziale di innovazione con la necessità di sicurezza, affidabilità e allineamento etico.

Bibliografia

[1] Lemoine, B. (2022): Is LaMDA Sentient? – an Interview, Medium, Jun 11, 2022 https://cajundiscordian.medium.com/is-lamda-sentient-an-interview-ea64d916d917;

[2] Chella, A. (2024): Coscienza artificiale: Claude 3 Opus e il tema dell’autoconsapevolezza delle macchine. AGENDA DIGITALE EU. https://www.agendadigitale.eu/cultura-digitale/barlumi-di-coscienza-nellia-claude-3-opus-e-il-tema-delle-macchine-coscienti/

[3] Chalmers, D. (2023): Could a Large Language Model Be Conscious? Boston Review. https://www.bostonreview.net/articles/could-a-large-language-model-be-conscious/

[4] Bringsjord, S., Bello, P., Ferrucci, D. (2001): Creativity, the Turing Test, and the (Better) Lovelace Test. Minds and Machines. 11: 3 – 27, 2001.

[5] Turing, A. (1950): Computing Machinery and Intelligence. Mind, Vol. LIX, No. 236, 433 – 460.

[6] Aleksander, I., Dunmall, B. (2003): Axioms and Tests for the Presence of Minimal Consciousness in Agents. Journal of Consciousness Studies 10 (4–5): 7–18.

[7] Gamez, D. (2008) The Development and Analysis of Conscious Machines, PhD thesis, Department of Computing and Electronic Systems, University of Essex. http://www.davidgamez.eu/mc-thesis/pages/thesis.html

[8] Mancini, S. (2024): Trasparente, spiegabile e interpretabile: solo così l’IA farà bene a tutti. AGENDA DIGITALE EU https://www.agendadigitale.eu/cultura-digitale/trasparente-spiegabile-e-interpretabile-solo-cosi-lia-fara-bene-a-tutti/

[9] De Leo, M., Biscaretti, B. (2023): Errori dell’IA, di chi è la responsabilità: nel diritto in Italia. AGENDA DIGITALE EU https://www.agendadigitale.eu/sicurezza/responsabilita-per-gli-errori-dellia-i-risvolti-pratici-e-giuridici/

[10] Chella, A. (2024): Coscienza artificiale: l’ingrediente mancante per un’IA etica? AGENDA DIGITALE EU https://www.agendadigitale.eu/cultura-digitale/coscienza-artificiale-lingrediente-mancante-per-unia-etica/

[11] Chella, A. (2024): L’IA con la lente della mitologia greca: la via verso un nuovo umanesimo tecnologico. AGENDA DIGITALE EU https://www.agendadigitale.eu/cultura-digitale/lia-con-la-lente-della-mitologia-greca-la-via-verso-un-nuovo-umanesimo-tecnologico/

[1] https://gist.github.com/bshlgrs/57323269dce828545a7edeafd9afa7e8

@RIPRODUZIONE RISERVATA