La frenetica evoluzione dell’intelligenza artificiale (soprattutto “generativa”, come ChatGPT e concorrenti), ha portato a un cambiamento persino negli “assistenti intelligenti” che, possiamo dire, sembrano essere stati “semanticamente” scalzati dai cosiddetti “agenti” di Intelligenza Artificiale. Tali agenti rappresentano l’evoluzione stessa dei modelli generativi. Basti pensare all’agente “quasi-umano” e intelligente di Google “Project Astra”[1], che permette agli utenti di interagire utilizzando audio e video, oppure al nuovissimo e multimodale GPT-4o di OpenAI[2].
Gli investimenti delle big tech nella creazione di agenti AI
Le Big Tech del settore stanno investendo ingenti somme di denaro nella creazione di agenti di Intelligenza Artificiale, con il grandioso obiettivo di rendere tale tecnologia utile e fruibile per tutti. La ricerca in questo campo, tuttavia, è ancora agli inizi e il settore non ha, per così dire, una definizione definitiva e precisa. Diciamo che, al momento, stiamo parlando di modelli e algoritmi di Intelligenza Artificiale in grado di prendere decisioni autonome in un mondo dinamico.
A cosa ci serviranno gli agenti AI
La grande “visione” degli agenti di Intelligenza Artificiale è quella di un sistema in grado di eseguire una vasta gamma di compiti, proprio come un assistente umano. In futuro, potremmo avvalerci di tali agenti per prenotare le vacanze “ricordandosi”, per esempio, le nostre preferenze in merito alle sistemazioni e alle attrazioni relative al nostro viaggio. Così come potremmo avvalerci di agenti che ci suggeriscono i voli più adatti in base al nostro calendario lavorativo annuale, pianificando i vari itinerari in base al nostro tempo a disposizione e indicandoci un elenco di cose da mettere in valigia in base al piano e alle previsioni del tempo. Sul posto di lavoro, invece, potrebbe analizzare l’elenco delle cose da fare ed eseguirne i compiti, come l’invio di inviti al calendario, memo o e-mail, il tutto ben sincronizzato con i vari device a nostra disposizione.
Agenti multimodali: che significa
La “visione” degli agenti di Intelligenza Artificiale è di tipo multimodale, ossia in grado di elaborare il linguaggio testuale, gli audio e i video, fornendo il “risultato giusto alla giusta richiesta”. È probabile che questi agenti possano rendere più fluidi i processi per le aziende e le organizzazioni pubbliche. Per esempio, un agente di Intelligenza Artificiale potrebbe essere in grado di funzionare come un “bot” più sofisticato per il servizio clienti. Si pensi che l’attuale generazione di assistenti basati su modelli linguistici può solo generare la prossima parola probabile in una frase; tuttavia, un agente di Intelligenza Artificiale potrebbe avere la capacità di agire autonomamente su comandi in “linguaggio naturale” e di elaborare compiti di assistenza clienti senza supervisione umana. In questo caso tale agente sarebbe in grado di analizzare le e-mail di reclamo dei clienti e, quindi, di controllare il numero di riferimento del cliente, di accedere a database come i sistemi di gestione delle relazioni con i clienti e di consegna per vedere se il reclamo è legittimo e di elaborarlo secondo le politiche aziendali.
Le due categorie di agenti di AI
Possiamo dividere gli agenti di Intelligenza Artificiale in due diverse categorie: gli “agenti software” e gli “agenti incorporati”. Gli agenti software funzionano su computer o smartphone, utilizzando diverse APP. Questi agenti sono molto utili per il lavoro d’ufficio, per l’invio di e-mail o per la creazione di una catena di eventi. Gli agenti incorporati, invece, sono agenti situati in un mondo 3D, come un videogioco, o in un robot. Questo tipo di agenti potrebbe rendere i videogiochi più coinvolgenti, permettendo alle persone di giocare con personaggi non giocanti controllati dall’intelligenza artificiale. Questi tipi di agenti potrebbero anche aiutare a costruire robot più utili che ci aiutino nelle attività quotidiane a casa, come piegare il bucato e cucinare le pietanze.
Le tre diverse caratteristiche degli agenti AI
In una recentissima ricerca (non ancora sottoposta a peer-review)[3], i ricercatori della University of Princeton (New Jersey, USA) affermano che gli agenti di Intelligenza Artificiale tendono ad avere tre diverse caratteristiche. I sistemi di Intelligenza Artificiale sono considerati come agenti se sono in grado di perseguire obiettivi difficili senza essere istruiti in ambienti complessi. Si qualificano come tali anche se possono essere istruiti in linguaggio naturale e agire autonomamente senza supervisione umana. Infine, il termine “agente” può essere applicato anche a sistemi in grado di utilizzare strumenti, come la ricerca sul web, la programmazione oppure la capacità di pianificare.
Agenti AI: le domande ancora aperte
In merito alla figura degli agenti di Intelligenza Artificiale vi sono ancora molte domande aperte che devono trovare risposta. Possiamo al momento paragonare lo stato degli agenti di Intelligenza Artificiale a quello in cui si trovavano le auto a guida autonoma poco più di dieci anni fa, ossia nella “preistoria” del settore.
Affidabilità
In soldoni: possono “fare qualcosa”, ma non sono affidabili e non sono ancora veramente autonome. Ad esempio, un agente di codifica può generare un codice; tuttavia, a volte lo sbaglia e non sa come “testare” il codice che sta creando. Quindi gli esseri umani devono ancora essere coinvolti attivamente nel processo.
Ragionamento
I sistemi di Intelligenza Artificiale non sono ancora in grado di ragionare, un passo fondamentale per operare in un mondo umano complesso e ambiguo. Insomma, non siamo neanche lontanamente vicini ad avere un agente che possa automatizzare tutte queste faccende al posto nostro.
Allucinazioni
I sistemi attuali soffrono delle cosiddette “allucinazioni”, una delle “malattie” dell’Intelligenza Artificiale che induce il sistema a dare risultati non aderenti alla realtà. Inoltre, tali sistemi non sempre seguono attentamente le istruzioni fornite loro (il che diventa frustrante sul medio-lungo periodo).
Limiti delle “finestre di contesto”
Un’altra limitazione è che dopo un po’ di tempo gli agenti di Intelligenza Artificiale perdono la cognizione di ciò su cui stanno lavorando. I sistemi di Intelligenza Artificiale sono limitati dalle loro “finestre di contesto”, ovvero dalla quantità di dati che possono prendere in considerazione in un dato momento.
ChatGPT, per esempio, è in grado di eseguire la codifica, ma non è in grado di elaborare contenuti di lunga durata. Per gli sviluppatori umani, invece, è possibile visualizzare un intero repository GitHub con decine, se non centinaia, di righe di codice e non abbiamo problemi a navigarlo.
Per affrontare questo problema, Google ha aumentato la capacità dei suoi modelli di elaborare i dati, consentendo agli utenti di avere interazioni più lunghe con essi, in cui ricordano meglio le interazioni passate. L’azienda ha dichiarato che sta lavorando per rendere le finestre di contesto infinite in futuro. Per gli “agenti incorporati”, come i robot, le limitazioni sono ancora maggiori. Non ci sono abbastanza dati di addestramento per insegnare loro e i ricercatori stanno appena iniziando a sfruttare la potenza dei modelli di fondazione nella robotica. Quindi, in mezzo a tutto questo clamore, vale la pena ricordare che la ricerca sugli agenti di Intelligenza Artificiale è ancora nelle sue fasi iniziali e probabilmente ci vorranno anni prima di poter sperimentare il loro pieno potenziale.
I primi prototipi di agenti AI
Se vogliamo passare alla prova pratica, ossia al toccare con mano gli agenti di Intelligenza Artificiale, al momento abbiamo poche possibilità. Abbiamo, per così dire, i primi “prototipi”, come AutoGPT Agent di OpenAI, che permette di “pianificare e lavorare per completare i compiti in modo semi-autonomo, utilizzando strumenti multi-modali secondo le necessità” dell’utente[4]. Al momento i migliori agenti che abbiamo sono sistemi con casi d’uso molto ristretti e specifici, come gli assistenti di codifica, i bot per il servizio clienti o i software di automazione dei flussi di lavoro come (il dibattuto[5]) Zapier. Tuttavia questi sistemi di Intelligenza Artificiale, come anticipato, sono ben lontani da un “agente di Intelligenza Artificiale universale” in grado di svolgere compiti complessi.
Agenti AI: che futuro ci attende
I plug-in ChatGPT di OpenAI, che consentono di creare assistenti AI per i browser web, sono tentativi della società statunitense fondata da Elon Musk di creare agenti di Intelligenza Artificiale affidabili. Ma al momento, questi sistemi sono ancora goffi, inaffidabili e non in grado di ragionare. Nonostante ciò, questi sistemi un giorno (e non “per magia”) cambieranno il modo in cui interagiamo con la tecnologia e si tratta di una tendenza a cui le persone devono prestare attenzione. E, probabilmente, vi sarà ben poco stupore da parte nostra, abituati come siamo alla veloce integrazione della tecnologia nelle nostre vite quotidiane.[6]
Note
- Project Astra. Google. https://deepmind.google/technologies/gemini/project-astra/ ↑
- Hello GPT-4°. OpenAI. https://openai.com/index/hello-gpt-4o/ ↑
- AI Agents That Matter. arXiv. https://arxiv.org/html/2407.01502v1 ↑
- AutoGPT Agent. OpenAI. https://chatgpt.com/g/g-POb5UhhJ6-autogpt-agent ↑
- Is Zapier an AI Agent or AI Assistant? What’s the Distinction? PlayHT. https://play.ht/blog/zapier-an-ai-agent-or-ai-assistant/ ↑
- What are AI agents? MIT Technology Review. https://www.technologyreview.com/2024/07/05/1094711/what-are-ai-agents/ ↑