scenari

I nuovi orizzonti della robotica intelligente: LLM e robot “smart”



Indirizzo copiato

Con l’avanzamento dell’Intelligenza Artificiale, la robotica ha fatto un salto di qualità, grazie soprattutto ai modelli linguistici di grandi dimensioni (LLM). Startup come Figure AI stanno creando robot capaci di riconoscere oggetti, sostenere conversazioni e risolvere problemi. La combinazione di visione, linguaggio e azione apre nuove frontiere per i robot intelligenti

Pubblicato il 24 lug 2024

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza



3d,Rendering,Robot,Learning,Or,Machine,Learning,With,Education,Hud

L’evoluzione della robotica sta segnando una svolta significativa grazie all’integrazione dei Large Language Model (LLM), che stanno ampliando notevolmente le capacità dei robot intelligenti.

Queste macchine, sempre più sofisticate, trovano ora impiego in una varietà di ambienti, spaziando dall’assistenza domiciliare alla gestione degli inventari nei magazzini, dimostrando come la tecnologia possa avere un impatto tangibile e quotidiano nella vita delle persone.

Il punto d’incontro tra LLM e robot: il caso di Figure AI

Perciò è interessante dare un’occhiata al punto di incontro delle tecnologie più d’impatto del momento. Per esempio, una startup statunitense di robotica, Figure AI, ha messo a punto un robot alimentato dall’Intelligenza Artificiale molto particolare.

È stato chiesto alla macchina cosa vedesse in un dato momento, e il robot ha descritto gli oggetti che aveva di fronte, indicando anche quale tra essi (mela rossa, tazze e un piatto) fosse edibile.

Il robot, raccolta la mela e porta al suo interlocutore umano, ha anche giustificato la scelta sulla commestibilità della mela quale unico oggetto da poter mangiare tra tutti gli altri. Siamo dinanzi a un robot in grado di sostenere conversazioni parlate, riconoscere e manipolare oggetti, risolvere problemi e spiegare le proprie azioni su richiesta del proprio interlocutore.

L’ascesa dei robot intelligenti alimentati da LLM

Dopo anni di lenti progressi e di “molta polvere sugli ingranaggi”, i robot sembrano essere improvvisamente diventati molto intelligenti e il motivo non è per noi “amanti della tecnologia” un grande mistero. L’ingrediente magico è sempre lo stesso: l’Intelligenza Artificiale, con gli LLM che la fanno da padrone.

Ricercatori, startup e giganti tecnologici stanno prendendo i progressi dell’Intelligenza Artificiale, come i già citati modelli linguistici di grandi dimensioni, la sintesi vocale e il riconoscimento delle immagini, e li stanno applicando alla robotica.

Gli LLM sono noti per l’alimentazione di chatbot come ChatGPT, ma è emerso che possono aiutare ad alimentare anche i robot reali. Gli algoritmi, in pratica, possono essere trasferiti nelle macchine. Il robot implementato da Figure AI aveva le sue capacità di riconoscimento vocale e di sintesi vocale spaventosamente realistica fornite da OpenAI[1] (che è un investitore della società di Sunnyvale). OpenAI, che ha chiuso la propria unità di robotica intorno al 2020, ha preferito investire in Figure AI e in altre startup (anche se, c’è da dire che OpenAI ci ha ripensato e ha iniziato a ri-costruire un nuovo team di robotica in-house)[2].

Come funzionano i Large Language Model nei robot

Un passo fondamentale verso l’applicazione dell’Intelligenza Artificiale in ambito robotico è stato lo sviluppo di modelli multimodali, ossia di modelli addestrati su diversi tipi di dati. Ad esempio, mentre un modello linguistico viene addestrato utilizzando una grande quantità di testo, i modelli combinati linguistico-visivi vengono addestrati anche utilizzando combinazioni di immagini (fisse o in movimento) in concerto con le corrispondenti descrizioni testuali.

Questi modelli imparano la relazione tra i due elementi, consentendo loro di rispondere a domande su ciò che sta accadendo in una foto o in un video, o di generare nuove immagini in base a richieste di testo.

I nuovi modelli utilizzati nella robotica fanno un ulteriore passo avanti, puntando alla combinazione “visione-linguaggio-azione”, recependo cioè testi e immagini, oltre ai dati relativi alla presenza del robot nel mondo fisico, tra cui le letture dei sensori interni, il grado di rotazione delle diverse articolazioni e le posizioni degli attuatori, ossia gli “arti” (o estremità) dei robot.

Vantaggi dei modelli multimodali in robotica

E qui torniamo con l’apertura del presente articolo: i robot alimentati dagli LLM possono rispondere a domande su un qualcosa che stanno vedendo (come il vedere una mela), così come possono prevedere il modo in cui il braccio di un robot deve muoversi per raccogliere quella mela. In altre parole, un modello “multimodale” può fungere da “encefalo per robot” con ogni tipo di corpo o struttura, sia che si tratti di giganteschi bracci fissi in fabbriche o magazzini, sia di robot mobili con gambe (umanoidi) o ruote.

E a differenza degli LLM, che manipolano solo il testo, i modelli multimodali devono mettere insieme diverse rappresentazioni indipendenti del mondo, in testi, immagini e letture di sensori.

Questo modo di radicare la percezione del modello nel mondo reale riduce notevolmente le allucinazioni di cui sono affetti diversi modelli di Intelligenza Artificiale (la tendenza a inventare e sbagliare le cose, spesso per compiacere l’utente).

La più conosciuta società (sempre californiana) Covariant, invece, ha creato un modello chiamato “rfm-1”[3], addestrato utilizzando testi, immagini e dati provenienti da oltre 30 tipi di robot. Il suo software viene utilizzato principalmente in combinazione con i robot nei magazzini e nei centri di distribuzione situati in aree suburbane ove la manodopera è scarsa. Covariant non produce hardware, ma il suo software viene utilizzato per aggiornare il “cervello” dei robot esistenti.

L’uso di questi nuovi modelli per controllare i robot presenta diversi vantaggi rispetto agli approcci precedenti. Uno dei vantaggi è l’apprendimento senza essere addestrati esplicitamente a farlo. La natura multimodale dei modelli in esame garantisce ai robot un grado di buon senso e di conoscenza del mondo senza precedenti, come ad esempio il fatto che la banana sia gialla che un tipo di frutta (ovviamente, edibile).

L’apprendimento nel contesto

Un altro vantaggio dei modelli in esame è l’apprendimento “nel contesto”, ovvero la possibilità di modificare il comportamento di un robot utilizzando suggerimenti testuali, piuttosto che una riprogrammazione elaborata. Basti pensare al robot di magazzino che può essere programmato da “supervisori umani” non specializzati utilizzando un linguaggio ordinario, piuttosto che un codice informatico. Questi modelli possono anche rispondere in modo gentile, scusandosi per eventuali errori con la promessa di non farli più in futuro.

La possibilità di chiedere a un robot cosa sta facendo (e perché) è particolarmente utile nel campo delle auto a guida autonoma, che sono in realtà solo un’altra forma di robot. Ora i modelli alla base dei veicoli a guida autonoma, oltre a controllare l’auto, sono in grado di comprendere i comandi testuali e di spiegare le motivazioni alla base delle loro decisioni. Possono, per esempio, modificare il comportamento di guida e impostare la velocità a seconda dei cartelli stradali su un determinato tratto, in completa autonomia.

L’importanza dei dati di addestramento

Come per altre forme di ai, l’accesso a grandi quantità di dati di addestramento è fondamentale. Covariant, che è stata fondata nel 2017, ha raccolto per molti anni i dati delle sue implementazioni esistenti (che ha utilizzato per addestrare l’rfm-1).

I robot possono anche essere guidati manualmente per eseguire un particolare compito alcune volte, con il modello in grado di generalizzare dai dati risultanti. Questo processo è noto come apprendimento per imitazione. Ma questa non è l’unica opzione. Un ingegnoso progetto di ricerca della Stanford University, chiamato “Mobile aloha[4], ha generato dati per insegnare a un robot le attività domestiche di base, come fare il caffè, utilizzando un processo noto come “teleoperazione del corpo intero” (come una marionetta). I ricercatori si sono posizionati dietro il robot e hanno mosso direttamente i suoi arti, consentendogli di percepire, apprendere e quindi replicare una particolare serie di azioni. Questo approccio, sostengono i ricercatori, consente alle persone di insegnare ai robot abilità arbitrarie.

I limiti attuali dell’hardware nei robot intelligenti

Secondo i ricercatori, con il miglioramento del software per la robotica, l’hardware sta diventando il fattore limitante, in particolare per quanto riguarda i robot umanoidi. Quindi, l’imperativo è migliorare l’hardware nel prossimo futuro.[5]

Note


[1] OpenAI ChatGPT + Robot = Figure 01. OpenAI. https://community.openai.com/t/openai-chatgpt-robot-figure-01/681733

[2] OpenAI is reportedly rebuilding its robotics division. The decoder. https://the-decoder.com/openai-is-reportedly-rebuilding-its-robotics-division/

[3] Introducing RFM-1: Giving robots human-like reasoning capabilities. Covariant. https://covariant.ai/insights/introducing-rfm-1-giving-robots-human-like-reasoning-capabilities/

[4] Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation. Stanford University. https://mobile-aloha.github.io/

[5] Robots are suddenly getting cleverer. What’s changed? The Economist. https://www.economist.com/science-and-technology/2024/06/05/robots-are-suddenly-getting-cleverer-whats-changed

EU Stories - La coesione innova l'Italia

Tutti
Analisi
Video
Iniziative
Social
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 3