E’recente la notizia[1] secondo cui Google Deepmind ha rilasciato un nuovo modello, che combina i Large Language Models LLM alla robotica. La soluzione proposta da Google consente ai robot di essere più abili nei movimenti e nelle interazioni, nonché di compiere una serie non predefinita di attività.
Indice degli argomenti
Fondamenti dell’integrazione LLM nella robotica
In particolare, secondo quando riportato, i robot che usano Gemini sono in grado di scegliere quali azioni intraprendere, di comprendere le richieste umane e di comunicare usando il linguaggio naturale.
Vuoi anticipare i trend? Parti dall’ERP cloud augmented!
Per consentire ai robot di svolgere tali compiti i modelli di IA devono avere “tre caratteristiche principali[2]: devono essere generali, cioè in grado di adattarsi a diverse situazioni; devono essere interattivi, cioè capaci di comprendere e rispondere rapidamente a istruzioni o cambiamenti nel loro ambiente; e devono essere abili, cioè in grado di fare le cose che le persone generalmente possono fare con le mani e le dita, come usare gli oggetti con cura e precisione”.
L’integrazione dei LLM nella robotica richiede necessariamente di svolgere delle riflessioni su una serie di questioni (che hanno anche risvolti normativi) tra cui, ad esempio, l’addestramento, l’autoapprendimento, la sorveglianza umana e la sicurezza.
L’addestramento e l’adattamento dei robot integrati con i LLM
Un aspetto cruciale che riguarda i robot integrati con i LLM riguarda l’addestramento e il continuo autoapprendimento. In particolare, occorre prestare attenzione alla tipologia dei dati trattati e alla qualità degli stessi; infatti, un elemento che rappresenta una sfida importante per l’addestramento dei robot riguarda la possibilità di accedere ad una quantità sufficiente di dati reali. Tale aspetto è critico se si considera anche la circostanza secondo cui l’eventuale utilizzo di dati sintetici può portare all’insorgere di importanti differenze tra le situazioni che il robot apprende sulla base dell’addestramento e le condizioni del mondo reale[3].
Inoltre, la necessità di una grande quantità di dati rende necessario tenere in considerazione la possibilità che nel set di dati di addestramento siano presenti anche dei dati personali, con le conseguenti implicazioni normative.
Una volta addestrato il modello, il robot sarà in grado di apprendere e di adattarsi alle situazioni che incontra nel contesto in cui si trova, sulla base delle informazioni che ha appreso. Anche la fase di adattamento e di continuo addestramento richiede di adottare delle cautele affinché non vi siano distorsioni nel funzionamento del robot.
L’output e l’importanza della sorveglianza umana nei robot LLM
Secondo quanto dichiarato da Google Deepmind[4], Gemini Robotics unisce la potenza dei modelli linguistici di grandi dimensioni con il ragionamento spaziale, consentendo di dire a un braccio robotico di compiere un’azione come, ad esempio, mettere degli oggetti in una ciotola di vetro. I comandi sono filtrati dal modello linguistico, che identifica le intenzioni dall’input che viene dato al modello e le scompone in comandi che il robot può eseguire. La tipologia di output generata da tali modelli, che si traduce in interazioni con l’ambiente circostante e con i soggetti che si trovano nel raggio d’azione del robot, rende evidente che un output errato o distorto può generare degli effetti negativi importanti.
Per questi motivi è importante che i modelli siano progettati e realizzati anche nel rispetto dei principi etici, con particolare attenzione alla sorveglianza umana e alla non discriminazione, principi richiamati anche nel considerando 27 dell’AI Act. In particolare, al fine di rispettare la sorveglianza umana “i sistemi di IA sono sviluppati e utilizzati come strumenti al servizio delle persone, nel rispetto della dignità umana e dell’autonomia personale, e funzionano in modo da poter essere adeguatamente controllati e sorvegliati dagli esseri umani”[5].
Con “non discriminazione” si intende anche che “i sistemi di IA sono sviluppati e utilizzati in modo da includere soggetti diversi e promuovere la parità di accesso, l’uguaglianza di genere e la diversità culturale, evitando nel contempo effetti discriminatori e pregiudizi ingiusti vietati dal diritto dell’Unione o nazionale”.
La sicurezza nell’integrazione LLM nella robotica
Un ulteriore punto di attenzione riguarda la sicurezza (safety) per garantire che i robot non creino danni nell’interazione con l’ambiente in cui operano.
Sul punto, Google ha adottato delle politiche di sicurezza di Gemini che sono progettate per la sicurezza dei contenuti, prevenendo che i modelli derivati da Gemini generino contenuti conversazionali dannosi come discorsi di odio, contenuti sessualmente espliciti, consigli medici inappropriati e la divulgazione di informazioni personali identificabili. Google dichiara anche che modelli di robotica ereditano l’addestramento alla sicurezza al fine di promuovere un dialogo sicuro tra umani e robot[6].
Prospettive future dell’integrazione LLM nella robotica
L’integrazione dei Large Language Models nella robotica rappresenta un’importante evoluzione, con implicazioni in termini di adattabilità, interazione e abilità dei robot. In ogni caso, oltre agli aspetti positivi di questa innovazione, bisogna tenere in considerazione, tra le altre, le implicazioni legate all’addestramento, alla sorveglianza umana e alla sicurezza.
L’evoluzione della robotica basata su LLM porterà sicuramente a nuove opportunità, ma sarà essenziale affrontare con attenzione le sfide etiche, normative e tecniche per garantire uno sviluppo sostenibile di queste soluzioni di IA.
Note
[1] MIT Technology Review, “Gemini Robotics uses Google’s top language model to make robots more useful”, Scott J Mulligan, 12 marzo 2025
[2] Google Deepmind, “Gemini Robotics brings AI into the physical world”, Carolina Parada, 12 marzo 2025
[3] MIT Technology Review, “Gemini Robotics uses Google’s top language model to make robots more useful”, Scott J Mulligan, 12 marzo 2025
[4] Gemini Robotics: “Bringing AI into the Physical World”, Gemini Robotics Team, Google DeepMind
[5] Regolamento 2024/1689, Considerando 27
[6] Gemini Robotics: “Bringing AI into the Physical World”, Gemini Robotics Team, Google DeepMind
Proteggi il tuo magazzino dai rischi informatici con un WMS avanzato