L’evoluzione della robotica sta segnando una svolta significativa grazie all’integrazione dei Large Language Model (LLM), che stanno ampliando notevolmente le capacità dei robot intelligenti.
Queste macchine, sempre più sofisticate, trovano ora impiego in una varietà di ambienti, spaziando dall’assistenza domiciliare alla gestione degli inventari nei magazzini, dimostrando come la tecnologia possa avere un impatto tangibile e quotidiano nella vita delle persone.
Il punto d’incontro tra LLM e robot: il caso di Figure AI
Perciò è interessante dare un’occhiata al punto di incontro delle tecnologie più d’impatto del momento. Per esempio, una startup statunitense di robotica, Figure AI, ha messo a punto un robot alimentato dall’Intelligenza Artificiale molto particolare.
È stato chiesto alla macchina cosa vedesse in un dato momento, e il robot ha descritto gli oggetti che aveva di fronte, indicando anche quale tra essi (mela rossa, tazze e un piatto) fosse edibile.
Il robot, raccolta la mela e porta al suo interlocutore umano, ha anche giustificato la scelta sulla commestibilità della mela quale unico oggetto da poter mangiare tra tutti gli altri. Siamo dinanzi a un robot in grado di sostenere conversazioni parlate, riconoscere e manipolare oggetti, risolvere problemi e spiegare le proprie azioni su richiesta del proprio interlocutore.
L’ascesa dei robot intelligenti alimentati da LLM
Dopo anni di lenti progressi e di “molta polvere sugli ingranaggi”, i robot sembrano essere improvvisamente diventati molto intelligenti e il motivo non è per noi “amanti della tecnologia” un grande mistero. L’ingrediente magico è sempre lo stesso: l’Intelligenza Artificiale, con gli LLM che la fanno da padrone.
Ricercatori, startup e giganti tecnologici stanno prendendo i progressi dell’Intelligenza Artificiale, come i già citati modelli linguistici di grandi dimensioni, la sintesi vocale e il riconoscimento delle immagini, e li stanno applicando alla robotica.
Gli LLM sono noti per l’alimentazione di chatbot come ChatGPT, ma è emerso che possono aiutare ad alimentare anche i robot reali. Gli algoritmi, in pratica, possono essere trasferiti nelle macchine. Il robot implementato da Figure AI aveva le sue capacità di riconoscimento vocale e di sintesi vocale spaventosamente realistica fornite da OpenAI[1] (che è un investitore della società di Sunnyvale). OpenAI, che ha chiuso la propria unità di robotica intorno al 2020, ha preferito investire in Figure AI e in altre startup (anche se, c’è da dire che OpenAI ci ha ripensato e ha iniziato a ri-costruire un nuovo team di robotica in-house)[2].
Come funzionano i Large Language Model nei robot
Un passo fondamentale verso l’applicazione dell’Intelligenza Artificiale in ambito robotico è stato lo sviluppo di modelli multimodali, ossia di modelli addestrati su diversi tipi di dati. Ad esempio, mentre un modello linguistico viene addestrato utilizzando una grande quantità di testo, i modelli combinati linguistico-visivi vengono addestrati anche utilizzando combinazioni di immagini (fisse o in movimento) in concerto con le corrispondenti descrizioni testuali.
Questi modelli imparano la relazione tra i due elementi, consentendo loro di rispondere a domande su ciò che sta accadendo in una foto o in un video, o di generare nuove immagini in base a richieste di testo.
I nuovi modelli utilizzati nella robotica fanno un ulteriore passo avanti, puntando alla combinazione “visione-linguaggio-azione”, recependo cioè testi e immagini, oltre ai dati relativi alla presenza del robot nel mondo fisico, tra cui le letture dei sensori interni, il grado di rotazione delle diverse articolazioni e le posizioni degli attuatori, ossia gli “arti” (o estremità) dei robot.
Vantaggi dei modelli multimodali in robotica
E qui torniamo con l’apertura del presente articolo: i robot alimentati dagli LLM possono rispondere a domande su un qualcosa che stanno vedendo (come il vedere una mela), così come possono prevedere il modo in cui il braccio di un robot deve muoversi per raccogliere quella mela. In altre parole, un modello “multimodale” può fungere da “encefalo per robot” con ogni tipo di corpo o struttura, sia che si tratti di giganteschi bracci fissi in fabbriche o magazzini, sia di robot mobili con gambe (umanoidi) o ruote.
E a differenza degli LLM, che manipolano solo il testo, i modelli multimodali devono mettere insieme diverse rappresentazioni indipendenti del mondo, in testi, immagini e letture di sensori.
Questo modo di radicare la percezione del modello nel mondo reale riduce notevolmente le allucinazioni di cui sono affetti diversi modelli di Intelligenza Artificiale (la tendenza a inventare e sbagliare le cose, spesso per compiacere l’utente).
La più conosciuta società (sempre californiana) Covariant, invece, ha creato un modello chiamato “rfm-1”[3], addestrato utilizzando testi, immagini e dati provenienti da oltre 30 tipi di robot. Il suo software viene utilizzato principalmente in combinazione con i robot nei magazzini e nei centri di distribuzione situati in aree suburbane ove la manodopera è scarsa. Covariant non produce hardware, ma il suo software viene utilizzato per aggiornare il “cervello” dei robot esistenti.
L’uso di questi nuovi modelli per controllare i robot presenta diversi vantaggi rispetto agli approcci precedenti. Uno dei vantaggi è l’apprendimento senza essere addestrati esplicitamente a farlo. La natura multimodale dei modelli in esame garantisce ai robot un grado di buon senso e di conoscenza del mondo senza precedenti, come ad esempio il fatto che la banana sia gialla che un tipo di frutta (ovviamente, edibile).
L’apprendimento nel contesto
Un altro vantaggio dei modelli in esame è l’apprendimento “nel contesto”, ovvero la possibilità di modificare il comportamento di un robot utilizzando suggerimenti testuali, piuttosto che una riprogrammazione elaborata. Basti pensare al robot di magazzino che può essere programmato da “supervisori umani” non specializzati utilizzando un linguaggio ordinario, piuttosto che un codice informatico. Questi modelli possono anche rispondere in modo gentile, scusandosi per eventuali errori con la promessa di non farli più in futuro.
La possibilità di chiedere a un robot cosa sta facendo (e perché) è particolarmente utile nel campo delle auto a guida autonoma, che sono in realtà solo un’altra forma di robot. Ora i modelli alla base dei veicoli a guida autonoma, oltre a controllare l’auto, sono in grado di comprendere i comandi testuali e di spiegare le motivazioni alla base delle loro decisioni. Possono, per esempio, modificare il comportamento di guida e impostare la velocità a seconda dei cartelli stradali su un determinato tratto, in completa autonomia.
L’importanza dei dati di addestramento
Come per altre forme di ai, l’accesso a grandi quantità di dati di addestramento è fondamentale. Covariant, che è stata fondata nel 2017, ha raccolto per molti anni i dati delle sue implementazioni esistenti (che ha utilizzato per addestrare l’rfm-1).
I robot possono anche essere guidati manualmente per eseguire un particolare compito alcune volte, con il modello in grado di generalizzare dai dati risultanti. Questo processo è noto come apprendimento per imitazione. Ma questa non è l’unica opzione. Un ingegnoso progetto di ricerca della Stanford University, chiamato “Mobile aloha”[4], ha generato dati per insegnare a un robot le attività domestiche di base, come fare il caffè, utilizzando un processo noto come “teleoperazione del corpo intero” (come una marionetta). I ricercatori si sono posizionati dietro il robot e hanno mosso direttamente i suoi arti, consentendogli di percepire, apprendere e quindi replicare una particolare serie di azioni. Questo approccio, sostengono i ricercatori, consente alle persone di insegnare ai robot abilità arbitrarie.
I limiti attuali dell’hardware nei robot intelligenti
Secondo i ricercatori, con il miglioramento del software per la robotica, l’hardware sta diventando il fattore limitante, in particolare per quanto riguarda i robot umanoidi. Quindi, l’imperativo è migliorare l’hardware nel prossimo futuro.[5]
Note
[1] OpenAI ChatGPT + Robot = Figure 01. OpenAI. https://community.openai.com/t/openai-chatgpt-robot-figure-01/681733
[2] OpenAI is reportedly rebuilding its robotics division. The decoder. https://the-decoder.com/openai-is-reportedly-rebuilding-its-robotics-division/
[3] Introducing RFM-1: Giving robots human-like reasoning capabilities. Covariant. https://covariant.ai/insights/introducing-rfm-1-giving-robots-human-like-reasoning-capabilities/
[4] Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation. Stanford University. https://mobile-aloha.github.io/
[5] Robots are suddenly getting cleverer. What’s changed? The Economist. https://www.economist.com/science-and-technology/2024/06/05/robots-are-suddenly-getting-cleverer-whats-changed