Siamo abituati a pensare che i prodotti dell’intelligenza artificiale “generativa”, ossia quella prodotta da modelli come ChatGPT e Gemini, possa avere come prodotti unicamente testi, immagini e video. Pensare a tale tecnologia limitata al mero spazio digitale è, tuttavia, un errore. Partendo dal presupposto che aziende come OpenAI e Google costruiscono chatbot, generatori di immagini e altri strumenti di AI che operano nel mondo digitale, non bisogna limitare la nostra mente unicamente a questo spazio.
Covariant, un’azienda con sede a Emeryville (California) specializzata in robotica (creata da tre ex dipendenti di OpenAI, il colosso proprietario di ChatGPT fondato da Elon Musk) sta utilizzando alcuni metodi di sviluppo tecnologico alla base dei chatbot per costruire una tecnologia di AI in grado di “navigare nel mondo fisico”.
AI generativa nei magazzini: il modello di Covariant
La società californiana sta creando modi per consentire ai robot di raccogliere, spostare e smistare gli articoli mentre vengono trasportati nei magazzini e nei centri di distribuzione. L’obiettivo è aiutare i robot a capire cosa succede intorno a loro e a decidere – in autonomia – cosa fare e come comportarsi. La tecnologia di Covariant, che offre ai robot un’ampia comprensione della lingua inglese, consentendo alle persone di conversare con loro come se stessero chattando con ChatGPT è, tuttavia, ancora in fase di sviluppo (per cui potremmo dire che non è perfetta).
Tuttavia, poco importa, poiché siamo dinanzi a un chiaro segno che i sistemi di Intelligenza Artificiale generativa che guidano i chatbot potranno, un giorno, alimentare anche le macchine nei magazzini, i veicoli sulle strade e la domotica nelle case. E come i chatbot, questa tecnologia robotica apprende le proprie capacità analizzando enormi quantità di dati digitali. Ciò significa che è possibile migliorare tale tecnologia fornendole sempre più dati (di qualità).
Covariant, sia chiaro, non costruisce robot. Costruisce il software che alimenta i robot. L’azienda di Emeryville mira a implementare la sua nuova tecnologia con i robot di magazzino, fornendo una “tabella di marcia” per i suoi concorrenti nel fare lo stesso negli impianti di produzione e, chissà, anche sulle strade con le auto senza conducente.
L’impatto delle reti neurali
I sistemi di intelligenza artificiale che guidano i chatbot e i generatori di immagini sono chiamati “reti neurali”, poiché sono ispirati al cervello umano e imitano il modo in cui i neuroni biologici inviano segnali. Questi sistemi possono imparare a riconoscere parole, suoni e immagini, o – addirittura – a generarli da soli. È così che OpenAI ha costruito ChatGPT, dandogli la capacità di rispondere istantaneamente a domande, scrivere testi e generare programmi informatici, apprendendo queste abilità dal materiale presente su Internet.
Differenze tra Sora e Covariant
Le diverse aziende in competizione tra loro stanno ora costruendo sistemi in grado di apprendere da diversi tipi di dati allo stesso tempo. Analizzando sia una raccolta di foto che le didascalie che le descrivono, ad esempio, un sistema può cogliere le relazioni tra le due. OpenAI ha utilizzato questo sistema per costruire Sora, il suo nuovo generatore di video “super-realistici”. Analizzando migliaia di video con didascalie, Sora ha imparato a generare video di alta qualità semplicemente partendo da una breve descrizione testuale di una scena.
Come funziona la tecnologia di Covariant
Diversamente dalle finalità di Sora, Covariant usa tecniche simili per costruire un sistema che guida i robot di smistamento nei magazzini. L’azienda californiana ha passato anni a raccogliere dati da telecamere e altri sensori di cui questi robot sono dotati. Il sistema di Covariant raccoglie tutti i tipi di dati importanti per i robot, che possono aiutarli a comprendere il mondo fisico e a interagire con esso.
Combinando questi dati con le enormi quantità di testo utilizzate per addestrare chatbot come ChatGPT, l’azienda di Emeryville ha costruito una tecnologia che fornisce ai suoi robot una comprensione molto più ampia del mondo circostante. Dopo aver identificato gli schemi in questo insieme di immagini, dati sensoriali e dati testuali, la tecnologia dà al robot la capacità di gestire situazioni impreviste nel mondo fisico.
Il robot sa come raccogliere o smistare qualcosa, anche se non l’ha mai vista prima. È anche in grado di rispondere in inglese, come un qualsiasi chatbot. Così com’è, persino, in grado di generare video che prevedono ciò che probabilmente accadrà quando cercherà di raccogliere o smistare quella data cosa. Questi video non hanno alcuna utilità pratica in un magazzino, ma mostrano la comprensione del robot di ciò che lo circonda.
Il Robotics Foundational Model (RFM)
La tecnologia impiegata da Covariant prende il nome di Robotics Foundational Model (RFM). È una tecnologia che, sia chiaro, commette errori proprio come i chatbot (su questo non ci sono differenze). Così come può non capire con gli si chiede di fare, che si “rifiuti” di seguire un ordine che ha ben compreso, o che faccia cadere gli oggetti che sta trasportando. L’importante, insomma, è partire dal concetto che è un modello al pari di altri, con pregi e difetti.
Secondo il prof. Gary Marcus della New York University, sarebbe meglio utilizzare questa tecnologia nei magazzini e in altre situazioni in cui gli errori sono accettabili. Meglio non utilizzarla negli impianti di produzione e in altre situazioni potenzialmente pericolose (come quelle dove si usano materiali esplosivi, per esempio). È chiaro che man mano che le aziende addestrano questo tipo di sistema su raccolte di dati sempre più ampie e varie, è possibile che vi saranno miglioramenti relativi a questa tecnologia.
Lo scenario
Tutto ciò è, chiaramente, molto diverso dal modo in cui i robot operavano in passato. In genere, i robot venivano programmati per eseguire sempre lo stesso movimento preciso, come raccogliere una scatola di una certa dimensione o fissare un rivetto in un punto particolare del paraurti posteriore di un’auto.
Chiaramente, tali robot non erano in grado di gestire situazioni impreviste o casuali. Imparando dai dati digitali, ossia da centinaia di migliaia di esempi di ciò che accade nel mondo fisico, i robot possono iniziare a gestire gli imprevisti. E quando questi esempi sono abbinati al linguaggio, i robot possono anche rispondere a suggerimenti testuali e vocali, come farebbe un chatbot. Ciò significa che, come i chatbot e i generatori di immagini, i robot diventeranno più agili.