Sebbene i robot siano ancora un segmento in ombra rispetto alla ben più famosa intelligenza artificiale generativa (da Chatgpt a Copilot e Gemini) la loro posizione diventa sempre più centrale nella nostra società: pensiamo ad ambiti come l’automazione industriale o la chirurgia.
L’addestramento di queste macchine intelligenti rappresenta però una sfida di dimensioni proporzionali alla sua importanza. L’apprendimento dei robot si basa sui dati, un tesoro inestimabile che deve essere raccolto, elaborato e utilizzato con precisione per garantire l’efficienza delle macchine. Ma come si ottengono questi dati? Quali sono i limiti nell’acquisizione e nel loro impiego? E quali sono le prospettive future in questo campo?
L’importanza dei dati per la formazione dei robot
Se da un lato il settore dei robot è sempre in ascesa, dall’altro lato si fa sempre più pesante la cronica mancanza di accesso ai tipi di dati utilizzati per addestrare i robot in modo che possano interagire più agevolmente con il mondo fisico. Per addestrare i robot vi è necessità di accedere a dati fisici e reali.
Questi dati sono relativamente “scarsi” e tendono a richiedere molto più tempo, sforzi e attrezzature costose per essere raccolti. Questa scarsità di dati è uno dei principali fattori che attualmente frenano il progresso della robotica (a differenza dell’Intelligenza Artificiale generativa “acchiappatutto”). Di conseguenza, le aziende più importanti del settore sono in forte competizione tra loro per trovare modi nuovi e migliori per raccogliere i dati di cui hanno bisogno per alimentare i loro robot. Questa corsa si è tramutata quasi “in grottesco”, con la creazione di “stranezze” come bracci robotici per girare pancake per ore e ore, la visione di migliaia di ore di video grafici di interventi chirurgici presi da YouTube o l’invio di ricercatori in numerosi Airbnb per filmare ogni angolo delle stanze. Ciò che accomuna robot e chatbot (come ChatGPT) sono i “soliti” problemi di privacy, etica e copyright delle loro “controparti”.
C’è da dire che per decenni i robot sono stati addestrati a svolgere compiti specifici, come raccogliere una pallina da tennis o fare una capriola. Mentre gli esseri umani imparano a conoscere il mondo fisico attraverso l’osservazione, i tentativi e gli errori, molti robot imparavano a conoscere il mondo attraverso equazioni e codici. Questo metodo era lento, con i robot che non potevano trasferire le competenze da un compito a un altro.
L’apprendimento dei robot attraverso i dati
Ma ora i progressi dell’Intelligenza Artificiale stanno accelerando un cambiamento che era già iniziato: lasciare che i robot imparino da soli attraverso i dati. Proprio come un modello linguistico può imparare da una biblioteca di romanzi, i modelli robotici possono ricevere alcune centinaia di dimostrazioni di una persona che lava un piatto usando, ad esempio, pinze robotiche e, quindi, imitare tale compito senza che gli venga insegnato esplicitamente l’aspetto del piatto e delle macchie, o come aprire il rubinetto. Questo approccio sta portando a progressi più rapidi, con nuove macchine capaci di fare sempre di più dei predecessori. Ora tutte le aziende più importanti stanno cercando di “instillare” nei robot il ragionamento su nuovi compiti utilizzando l’Intelligenza Artificiale. Il successo dipenderà dalla capacità dei ricercatori di trovare un numero sufficiente di tipi di dati diversi per mettere a punto i modelli per i robot, nonché di trovare nuovi modi per far capire loro quando hanno ragione e quando hanno torto.
La necessità di creare dati di addestramento di qualità
Per capire come un robot può acquisire dati si può immaginare una macelleria. Ci sono tagli pregiati e costosi, tagli più “umili” e scarti di lavorazione della carne. Tutte le parti della carne sono utilizzabili, ma non sono ovviamente tutte uguali. Al momento l’ostacolo principale è che la creazione di dati “di qualità” per robot richiede molto tempo ed è limitata dal numero di robot “costosi” che ci si può permettere. Paradossalmente, per creare dati di addestramento di qualità in modo più economico ed efficiente è necessario utilizzare dispositivi più semplici che possano accelerare il processo di raccolta dei dati.
Sulla stessa linea d’onda sono i modelli robotici costruiti su dati “open-source” che, tuttavia, non sono in grado di offrire prestazioni in una gamma di casi d’uso sufficientemente ampia da poter competere con i modelli proprietari costruiti dalle principali aziende private. Ciò che è disponibile attraverso l’open source semplicemente non è sufficiente per costruire modelli di robot con capacità generali e in grado di ricevere istruzioni attraverso testi, immagini e video.
I limiti nell’acquisizione di dati per l’addestramento dei robot
Il limite maggiore è rappresentato dai dati, sia in quantità che in qualità. Solo le aziende “ricche”, in altre parole, ne hanno a sufficienza. Il vantaggio di queste aziende in termini di dati si consolida nel tempo. Nella loro ricerca di un maggior numero di dati di addestramento, le aziende private di robotica con grandi bacini di clientela hanno un’arma “non tanto segreta”: i loro robot sono essi stessi macchine perennemente in grado di raccogliere dati. Covariant, un’azienda di robotica fondata qualche anno fa da OpenAI (proprietaria di ChatGPT in casa Microsoft), distribuisce robot addestrati a identificare e prelevare articoli nei magazzini per diverse aziende.
Queste macchine raccolgono costantemente filmati che vengono poi inviati a Covariant. Ogni volta che il robot non riesce a prendere un flacone di shampoo, ad esempio, tale azione diventa un dato da cui imparare e il modello migliora le sue capacità di raccolta dello shampoo per la volta successiva.
Il risultato è un’enorme serie di dati proprietari raccolti dalle macchine dell’azienda. Questo dataset è parte del motivo per cui all’inizio di quest’anno Covariant è stata in grado di rilasciare un potente modello capace di una disparata varietà di usi. I clienti possono ora comunicare con i robot commerciali di Covariant proprio come farebbero con un chatbot: si possono fare domande, mostrare foto e chiedere al robot di riprendere un video mentre sposta un articolo da una cassa all’altra.
Rivoluzione nel metodo di raccolta dati: l’apprendimento dai video
La scarsità di dati di alta qualità ha portato alcuni esperti del settore della robotica a proporre di bypassare completamente questo metodo di raccolta. E se i robot potessero imparare dai video delle persone? Questi dati video sono più facili da produrre, anche se mancano dei dati che tracciano i movimenti esatti di un braccio robotico mentre si muove nello spazio. Alcuni ricercatori hanno creato una soluzione realizzando un’applicazione mobile che consente di addestrare i robot utilizzando la realtà aumentata. Gli utenti riprendono i video mentre completano semplici compiti con le mani, come raccogliere una tazza, e il programma a realtà aumentata può tradurre i risultati in modo che il software del robot può imparare. Meta AI, invece, sta portando avanti un metodo di raccolta simile su scala più ampia con un insieme di dati composto da più di tremila ore di video girati da persone di tutto il mondo che svolgono qualsiasi attività, dalla posa di mattoni al gioco del basket, fino all’impasto del pane. Il dataset di Meta è suddiviso per attività e contiene migliaia di annotazioni, che dettagliano ciò che sta accadendo in ogni scena, come quando un’erbaccia è stata rimossa da un giardino o un pezzo di legno è stato completamente levigato.
Imparare dai dati “a video” significa che i robot possono affrontare una varietà di compiti molto più ampia di quanto potrebbero fare se si affidassero esclusivamente alla “teleoperazione umana”. Questo è un punto importante, perché proprio come i modelli linguistici potenti hanno bisogno di dati complessi e diversificati per imparare, gli esperti del campo della robotica possono creare i loro modelli potenti solo se espongono i robot a migliaia di compiti. A tal fine, alcuni ricercatori stanno cercando di trarre utili indicazioni da una vasta fonte di dati abbondanti ma di “bassa qualità”: YouTube. Con migliaia di ore di video caricate ogni minuto, i contenuti disponibili non mancano. Il problema è che la maggior parte di essi è piuttosto inutile per un robot. Questo perché non sono etichettati con i tipi di informazioni di cui i robot hanno bisogno, come le annotazioni o i dati cinematici.
La mancanza di dati è diventata presto un ostacolo. Negli interventi laparoscopici, i chirurghi utilizzano spesso bracci robotici per manipolare strumenti chirurgici inseriti attraverso incisioni molto piccole nel corpo. Questi bracci robotici sono dotati di telecamere che catturano filmati che possono aiutare ad addestrare i modelli, una volta che le informazioni di identificazione personale sono state rimosse dai dati. Negli interventi chirurgici aperti più tradizionali, invece, i chirurghi usano le mani invece dei bracci robotici. Questo produce molti meno dati con cui costruire modelli di Intelligenza Artificiale. Per affrontare questo problema, è stato addestrato un modello di Intelligenza Artificiale su migliaia di ore di video di interventi chirurgici a cielo aperto, ripresi da medici con telecamere portatili o a soffitto, raccolti da YouTube. Tale modello è stato in grado di identificare segmenti di operazioni dai video, gettando le basi in tal modo per la creazione di dati utili per l’addestramento.
Le sfide legali relative ai dati di addestramento
È probabile che, ovunque i robot si rivolgano per ottenere nuovi dati di addestramento, prima o poi dovranno affrontare importanti battaglie legali. I produttori di modelli linguistici di grandi dimensioni devono già affrontare questioni di “crediti” e copyright. Sia che parliamo di modelli che di robot, tutto questo settore vive una sorta di “sostanziale incertezza giuridica”. Se le aziende di robotica vogliono unirsi ad altre aziende di Intelligenza Artificiale per utilizzare opere protette da copyright nei loro training data, non è ancora chiaro se ciò sia consentito dalla dottrina del “fair-use” che consente l’uso di materiale protetto da copyright senza autorizzazione in una serie ristretta di circostanze.
Il futuro dell’addestramento dei robot e le possibili innovazioni
È troppo presto per dire se le “sfide legali” rallenteranno il razzo della robotica, poiché i casi relativi all’Intelligenza Artificiale sono numerosi e ancora non decisi a livello giudiziario. Ma è sicuro che gli esperti di robotica che setacciano YouTube o altre fonti video su Internet per ottenere dati di addestramento si troveranno a navigare in acque piuttosto inesplorate. E siamo ancora agli inizi di questa avventura.