L’era inflattiva dell’intelligenza artificiale generativa sempre più evoca all’orizzonte non solo una nuova ecologia mediale sintetica (testi, immagini, suoni, video), ma più profondamente anche una nuova società (ed economia) sintetica, popolata e animata da agenti artificiali autonomi. Siamo solo agli inizi naturalmente e il clamore mediatico è montante, ma il tentativo di introduzione da parte di imprese e istituzioni di agenti autonomi artificiali si candida a scardinare modi classici della cognizione, antiche divisioni del lavoro, consolidate strategie umane del decidere.
In alcuni settori e industrie è in dispiegamento un’armata di agenti artificiali che immagina di (ri)organizzare il mondo in maniera neoautonoma. A partire dal lavoro, anche da quello necessario per svolgere compiti molteplici e complessi. Non solo, quindi, per produrre una singola immagine o uno specifico testo come accade con le più note forme generative. Potremmo individuare questo come il passaggio dalla medialità alla produttività: dalla produzione di contenuti all’erogazione di servizi.
I nomi di questi nuovi agenti cominciano a circolare: AutoGPT, BabyAGI, AgentGPT, Copilot. La lista è destinata ad allungarsi velocemente e a subire scossoni. A diverso titolo si possono etichettare come AI agents. Nell’era della transazione infinita di flussi e processi, l’arrivo di questi agenti autonomi consente di avviare la sperimentazione di una artificial economics in forme nuove. Quindi, non più solo programmi software in ambienti simulati, ma agenti artificiali autonomi impegna ti in contesti e processi reali. Anche reimmaginando ecosistemi di cocreazione di valore e architetture di business in una logica di servizio agent-based.
Cche cosa sono gli agenti artificiali autonomi
Ma, anzitutto, che cosa sono gli agenti artificiali autonomi?
Si tratta di sistemi computazionali dotati di autonomia crescente, capaci di raccogliere informazioni e interagire con ambienti/sistemi esterni e di eseguire attività e compiti assegnati per giungere a un risultato prefissato, senza intervento umano immediato o continuo.
Schematizzando: dato un determinato obiettivo, un agente autonomo (per semplificare, codice software potenziato dall’intelligenza artificiale) definisce i compiti iniziali attingendo anche alla sua memoria (corta e lunga) e creando sottotask/goal; li mette in esecuzione evocando strumenti esterni disponibili e risorse terze qualificate (per esempio via RAG); ne raccoglie i primi feedback e sulla scorta di questi genera nuovi compiti mettendoli selettivamente in scala di priorità, per poi continuare a iterare il processo per cicli migliorativi fino al conseguimento finale dell’obiettivo.
Il tutto fatto singolarmente (con un agente autonomo o copilota), ma anche sempre più in modalità collettiva: nella forma di sistemi multi-agente (con attivazione di più agenti) o anche di sistemi meta-agente (con un agente coordinatore di altri agenti).
Aggregazioni di agenti: un esperimento recente
In un esperimento recente, sono già state testate in simulazione computazionale aggregazioni di agenti con coordinamento autonomo emergente: una ventina di agenti artificiali, una volta avuto l’input di organizzare un party per San Valentino, hanno iniziato a progettare, in autonomia, le varie attività connesse all’evento, simulando e riproducendo il comportamento umano nelle sue diverse configurazioni e pianificazioni di attività quotidiane. Queste abilità computazionali vengono oggi progressivamente trasferite dai mondi simulati a quelli reali.
Questa capacità di pianificazione è un tratto caratteristico dell’essere un agente dotato di autonomia progettuale e decisionale. Dunque, dopo il successo nella costruzione di sequenze di parole sintetiche e di sequenze di immagini artificiali stiamo passando alla produzione di sequenze di azioni? Come scrive Choudary, dopo aver automatizzato i compiti (tasks), stiamo passando ad autonomizzare gli obiettivi (goals)?
Le tre dimensioni fondamentali per acquisire capacità di pianificazione
Per acquisire questa capacità di pianificazione passo dopo passo, sono fondamentali tre dimensioni:
- una qualche capacità di «ragionamento» realizzata in modalità «catena di pensieri» (chain of thought) che indirizza il modello linguistico, generativo e agentivo, verso la soluzione;
- una qualche capacità di individuare/eseguire le azioni/sottocompiti da intraprendere e reiterare in autonomia fino ad arrivare a risolvere il compito assegnato (quando le informazioni prodotte dal primo prompt non fossero sufficienti e fossero necessarie ulteriori azioni e osservazioni);
- una qualche capacità di mettere in priorità e dare un ordinamento sequenziale progressivo (incluse dipendenze e concatenamenti relativi tra i vari compiti) orientato verso il completamento del compito. Reasoning e acting (al modo specifico della machine agency, ricordiamo sempre) sono al centro di questa intelligenza generativa agenziale. Si comprende facilmente che per l’agente avere un modello della «mente» e un modello del «mondo» sono criticità da sciogliere ingegneristicamente in qualche maniera. Perché bisogna agire nel mondo e non solo scrivere un testo o creare un’immagine.
Un nuovo paradigma della scrittura del software
È questo un cambio significativo anche nella storia della programmazione e apre a un nuovo paradigma della scrittura del software. Infatti, prima dell’avvento dei modelli linguistici agenziali il compito di organizzare la sequenza delle azioni era in capo al programmatore umano. Questa abilità ora si tenta di passarla alla macchina. Ma che cosa significano ragionamento e pianificazione nel caso degli agenti autonomi? Anche qui, per evitare facili e fuorvianti antropomorfismi e sociomorfismi, è bene entrare un po’ nella loro meccanologia, nel loro funzionamento.
In primo luogo, quello che chiamiamo agente è in realtà un assemblaggio distribuito, stratificato e coordinato di funzioni/ agente molteplici (per esempio la funzione esecutiva di attività, quella creativa di compiti, quella organizzatrice delle priorità).
La chain-of-thought (o COT)
Ciascuna è incaricata di effettuare specifiche operazioni e di attivarsi e dialogare iterativamente e ricorsivamente con le altre tra strumenti, risorse, memorie e istruzioni. In secondo luogo, la dimensione del reasoning nei modelli linguistici è in carico alla «catena dei pensieri». La chain-of-thought (o COT) è il meccanismo metacognitivo con cui l’utente umano conduce l’agente artificiale a spacchettare il compito, accompagnandolo, sempre linguisticamente e a partire dall’input iniziale, per piccoli passi intermedi («let’s think step by step»). In terzo luogo, la dimensione d’autonomia dell’agente è nella sua capacità di auto-espandere e auto-riproporsi il prompt d’inizio integrandovi osservazioni, spiegazioni, suggerimenti. Semplicemente aggiungendo l’informazione ricavata dal singolo, ennesimo step allo stimolo originario, arricchisce e modifica la richiesta iniziale.
Così facendo, l’agente autonomo ricorsivamente affina il prompt d’avvio muovendosi, linguisticamente e statisticamente, nella direzione risolutiva cercata. È bene avere chiare queste tecnicalità minime per evitare hype, delusioni o fraintendimenti, di nuovo, su intelligenza, ragionamento, comprensione del mondo (e del business) da parte del modello.
I limiti attuali di un’automazione generativa linguistico-agenziale
Certamente a leggere strategicamente il presente, i limiti a oggi di un’automazione generativa linguistico-agenziale sono significativi. Ancora in buona misura basati sul processamento macchinico del linguaggio umano (solo formale e non funzionale), gli agenti risentono di questa simulazione retorica del linguaggio e di non comprensione del mondo al modo dell’umano.
Comprese le allucinazioni («catastrofi crossentropiche» preferisco chiamarle, per evitare antropomorfismi). Limiti che ovviamente si ripercuotono su ragionamento e pianificazione.
Di fatto, a oggi, non sono macchine intelligenti native, ma linguistiche e retoriche di base, integrate variamente con elementi esterni informativi e cognitivi che cercano di simulare conoscenza e azione. A questo si aggiungano i limiti degli strumenti, delle risorse, dei processi a cui devono attingere per completare i diversi compiti a cui vengono chiamate. Oltre alle vulnerabilità dei rispettivi modelli linguistici fondativi (dalle memorie ai dati e così via).
Nonostante ciò, sono in diversi oggi a ritenere l’orizzonte degli agenti autonomi tanto probabile quanto promettente. Anche con evoluzioni alternative e ibride rispetto agli attuali modelli logocentrici. Ne danno conto McShane, Nirenburg, English nel saggio Agents in the Long Game of AI (2024), in cui l’approccio dei modelli linguistici basati sul machine learning si ibrida con soluzioni neuro-simboliche supportate da basi di conoscenza (comune e da esperti), centrate sull’acquisizione di contenuti e sul ragionamento, in grado di offrire spiegabilità all’umano sui risultati ottenuti e sulle decisioni prese. Arricchiti da modelli del mondo, modelli d’azione e memorie episodiche e di lavoro, partendo da input percettivi multimodali (testi, immagini, suoni) e dalla capacità di riconoscerli e gestirli contestualmente, gli agenti intelligenti dotati di linguaggio (language- endowed intelligent agents o LEIA) passano poi alla fase di deliberazione e specificazione dell’azione da compiere.
La fiducvia dell’umano nel modello linguistico-agenziale
Nelle intenzioni di ricercatori e imprenditori, il modello linguistico- agenziale così arricchito dovrebbe indurre maggiore fiducia nell’umano con cui collabora:
a) rispondendo in maniera competente e informata alle interrogazioni;
b) comunicando il suo livello di confidenza nelle risposte che è riuscito a elaborare;
c) spiegando al meglio scelte e decisioni prese con argomentazione causale;
d) imparando iterativamente dalle molteplici interazioni che si producono nell’espletare il lavoro.
Già da queste rapide sintesi si comprende che avremo allora a che fare non solo con semplici modelli linguistici, ma con sistemi complessi di modelli linguistici.
Per le imprese e le istituzioni portare in produzione reale, a scala industriale e con modularità automatizzata efficiente e sicura (tra infrastrutture, macchine, dati, algoritmi e applicazioni), un modello linguistico fondazionale-agenziale implicherà uno sforzo strategico e ingegneristico non indifferente e non da tutti. Il prompt engineering fatto dall’umano (a cui molti oggi fanno riferimento) è solo la punta sdrucciolevole e più nota di un’architettura sottostante invisibile, impermanente e intrattabile (e, tuttavia, da dover gestire in qualche modo). Progettare e costruire questa infrastruttura immaginandola e implementandola con tutte le sue complessità richiederà visione e strategia (e moneta e talento).