L’evoluzione delle tecnologie di calcolo e comunicazione ha sempre avuto un impatto profondo sui comportamenti, i consumi e i bisogni sociali. Con l’avvento della rete mobile 6G, stiamo assistendo a una rivoluzione che promette di trasformare radicalmente la nostra interazione con il mondo digitale.
L’integrazione tra intelligenza artificiale (AI), realtà aumentata (AR) e il metaverso sta aprendo scenari che fino a poco tempo fa appartenevano solo alla fantascienza.
Andiamo allora a comprendere come queste tecnologie stanno dando vita a un metaverso collettivo, dove gruppi di persone possono condividere e coordinare esperienze visive e sensoriali in ambienti virtuali. Analizzeremo anche le sfide tecniche legate alla latenza, alla coerenza temporale e alla sicurezza dei dati, e come la combinazione di software avanzati e infrastrutture di rete potrebbe rendere possibile questa visione futuristica
Integrazione tra intelligenza umana e artificiale, dalla fantascienza alla realtà
Non è sempre facile rendersi conto di quanto l’evoluzione delle tecnologie di calcolo e comunicazione sia strettamente intrecciata a quella dei comportamenti, dei consumi e dei bisogni sociali.
La rete mobile è stata lo strumento per realizzare su larga scala gli scenari di comunicazione uomo-macchina e di interazione massiva delle macchine tra loro.
Oggi l’accesso alla rete è l’agente di cambiamento per creare scenari di integrazione tra intelligenza umana e artificiale finora appannaggio dei film di fantascienza distopici come Matrix. Siamo alla prese con le prime implementazioni di scenari di vita virtuale collettiva, in cui i membri di un gruppo scelgono di condividere e coordinare le loro esperienze visive e sensoriali in una realtà virtuale o ibrida di loro scelta. In questo articolo discutiamo gli aspetti tecnici di questi scenari applicativi, che integrano l’intelligenza artificiale, la sesta generazione della rete mobile e la realtà artificiale ed aumentata che va sotto il nome di metaverso [Sami et al., 2024]
Mettere a disposizione di una vasta platea di utenti una vita collettiva in un ambiente virtuale è un obiettivo tecnicamente molto ambizioso anche rispetto alle più ardite intuizioni fantascientifiche. Nel ciclo dei film Matrix, la condivisione delle esperienze virtuali avveniva tra utenti che nel mondo reale erano in stato di animazione sospesa in capsule isolate e quindi in quiete uno rispetto all’altro.
I nuovi visori di Apple
I nuovi visori di Apple permettono invece di inserire elementi visuali aggiuntivi nella realtà ordinaria, sotto forma di modelli 3D con cui gli utenti possono interagire mentre sono in movimento gli uni rispetto agli altri. La qualità è impressionante: i visori Apple sono in grado di catturare i movimenti oculari dell’utente e, usando coprocessori proprietari, usano il tracciamento dello sguardo per fornire un’esperienza percettiva vicina a quella della visione diretta.
Il tracciamento dei movimenti oculari
Per capire il problema occorre considerare che con un frame rate di 60 Hz, anche i monitor convenzionali superano la capacità umana di rilevamento della sgranatura dell’immagine in pixel, ma solo in regioni lontane dal punto dove è rivolto lo sguardo. Per eliminare la percezione della pixelatura nella direzione dello sguardo (la massima risoluzione percepibile è a 28 secondi d’arco dall’intersezione tra sguardo e schermo), il co-processore di rendering 3D usato nei visori utilizza dei frame buffer a risoluzione variabile. In un frame buffer di questo tipo, la risoluzione dell’immagine non è fissa ovunque, ma cambia frame per frame per adattarsi alla direzione dello sguardo dell’utente. Anche la frequenza di taglio del filtro anti -sgranatura (anti-aliasing) dei pixel varia dinamicamente per corrispondere alla densità di pixel effettiva delle varie zone del campo visivo. Un elemento importante – e proprietario – dei nuovi visori è apprendere i dettagli quantitativi precisi delle configurazioni del frame buffer necessarie per gestire la risoluzione variabile del sistema visivo umano. Il tracciamento dei movimenti oculari è un elemento critico, perché permette al dispositivo di ricavare e (con il permesso dell’utente) condividere informazioni che noi informatici sappiamo già come usare addestrare modelli in grado di prevedere le intenzioni e le prestazioni degli umani [Ball e Richardson, 2022]
Il metaverso collettivo
Se l’interazione con un oggetto digitale è collettiva, si presenta un altro problema: garantire l’ordine e la latenza uniforme degli aggiornamenti apportati dagli utenti alla posizione dell’oggetto digitale condiviso. Ad esempio, se più medici interagiscono con il modello tridimensionale di un organo durante usa sessione di formazione chirurgica, occorre che le durate percepite e l’ordine delle operazioni sul modello siano coerenti con quelli compiuti dai partecipanti (“no stitch before the cut”).
Secondo l’impostazione annunciata dai fornitori di tecnologia statunitensi sarà il sistema operativo del visore (iOS, nel caso di Apple) ad offrire la garanzia di un’interazione coerente tra gli oggetti digitali e gli utenti che interagiscono in una realtà virtuale o aumentata. Per questa scelta ci sono motivi scientifici: Apple e Meta sono aziende di cultura informatica più che di telecomunicazioni e gli informatici di tutto il mondo, stimolati dal genio di Leslie Lamport [Lamport, 1978], hanno lavorato per quarant’anni per gestire a livello applicativo (cioè, nel software dei dispositivi e non nella rete che li collega) le proprietà di coerenza temporale degli eventi generati nel sistema distribuito di cui i dispositivi fanno parte.
L’industria dei videogiochi, ad esempio, ha già disponibili i talenti informatici e gli strumenti di sviluppo per affrontare la sfida del metaverso collettivo.
Le interazioni tra utenti e oggetti digitali
Non si tratta però solo di affinità culturale tra i produttori di tecnologia e gli sviluppatori: le interazioni tra utenti e oggetti digitali sono i dati base con cui saranno addestrati i modelli di apprendimento computazionale del futuro. Gestire queste interazioni a livello applicativo mette i fornitori che producono i visori e il loro ecosistema (le software house che sviluppano le app) in posizione di vantaggio rispetto alle aziende di comunicazioni che forniscono la rete mobile a cui i visori si collegano.
Abbiamo visto che gli eventi generati dal tracciamento oculare alimentano un algoritmo locale – che gira su un coprocessore posto all’interno del visore – per la selezione della parte di modello 3D che l’utente sta guardando. Vi sono due livelli di uso congiunto di questi dati. In primo luogo, possono essere passati a un algoritmo distribuito che gestisce il coordinamento tra visori, in modo che conosca e coordini le azioni di tutti.
La soluzione “tutto software”
Poi sarà possibile, con il consenso degli utenti, passarli a modelli predittivi del comportamento collettivo, quelli che abilitano gli scenari alla Matrix. La soluzione “tutto software” vede Apple e Meta che addestrano e gestiscono I modelli locali (mono-utente) sui visori, e al secondo livello la connessione con un modello predittivo basato su LLM di Microsoft-Open AI per prevedere i comportamenti collettivi. Attenzione: non è ancora dimostrato da un punto di vista scientifico che i grandi modelli basati su LLM siano i più adatti per la previsione dei comportamenti motori e spaziali degli esseri umani [Damiani ML et al., 2020]; anzi, molti ricercatori – compreso chi scrive – vedono uno spazio per approcci generativi “leggeri” che potranno coinvolgere fornitori alternativi ed anche start-up innovative della filiera dei giochi. Ad ogni modo, l’approccio “tutto software” relega gli operatori di telecomunicazioni al ruolo di “bit pusher”, tenendoli lontani dai servizi ad alto valore aggiunto del metaverso.
Il ruolo del 6G
Consideriamo ora la possibile competizione (o collaborazione) tra le capacità di generazione di oggetti digitali realistici da parte dei visori e le funzionalità della futura rete 6G. Secondo gli operatori di telecomunicazioni, il metaverso è cosa loro: la sesta generazione della rete mobile si propone proprio di rendere l’esperienza di interazione collettiva attraverso la rete indistinguibile da quella nel mondo reale, grazie a una latenza di rete così bassa da far percepire ritardi uniformi nello stesso ambiente virtuale anche a utenti che sono in movimento uno rispetto all’altro nel mondo reale.
Se questo obiettivo tecnico venisse raggiunto, si aprirebbe uno spazio commerciale per un metaverso on-network, offerto dai fornitori di comunicazioni.
I requisiti da soddisfare
Vi sono però diversi requisiti tutt’altro che facili da soddisfare. Anzitutto, serve una elevata capacità di calcolo in rete e una trasmissione dati con velocità da dieci a cento volte superiore a quelle attuali, in modo da poter saturare il canale visivo umano direttamente dalla rete (rendering-on-network). Inoltre, serve una capacità di rilevamento fine della posizione dell’utente integrata con le comunicazioni e indipendente da sistemi presenti sul dispositivo come il GPS. Un altro elemento importante per il metaverso in rete è quello della sicurezza e privatezza. Il trattamento dei dati sensibili di tracciamento oculare pone problemi enormi quando il dato deve lasciare il dispositivo di acquisizione per essere elaborato in rete. Un elemento favorevole agli operatori di telecomunicazioni è invece la densità dei sensori necessari per la realtà aumentata multisensoriale. La rete 6G può interconnettere un numero enorme di sensori e fornire loro una qualità di servizio senza precedenti.
Metaverso on network
La messa in opera in rete 6G (e non solo nei visori) di modelli di apprendimento, inferenza e previsione del comportamento degli utenti del metaverso permetterebbe anche agli utenti dotati di dispositivi con risorse limitate di godere dei vantaggi del metaverso, favorendo gli scenari di accesso di massa in tempi rapidi. Ovviamente, in questa visione il carico e il consumo energetico sarebbero più delegati ai dispositivi client, ma spostati su rete, edge e cloud, richiedendo una gestione centralizzata intelligente delle risorse. Secondo alcuni ricercatori, è solo applicando modelli generativi basati su LLM alla gestione della rete 6G che sarà possibile realizzare il metaverso on-network, gestendo il traffico sulle reti backbone dovuto alla distribuzione spaziale degli utenti del metaverso e mantenendo ridotta la latenza di trasmissione anche per grandi comunità virtuali.
Certamente l’ecosistema 6G è altamente eterogeneo in termini di tipo di dispositivi, banda di frequenza occupata, tipo di infrastruttura, il che renderebbe difficile e costoso l’uso di tecniche tradizionali di previsione per assegnare le risorse di comunicazione, memorizzazione e calcolo in modo compatibile con un metaverso di massa basato su 6G [Bariuah e Debbah, 2024].
Bibliografia
Sami, H., Hammoud, A., Arafeh, M., Wazzeh, M., Arisdakessian, S., Chahoud, M., Damiani, E & Guizani, M. (2024). The metaverse: Survey, trends, novel pipeline ecosystem & future directions. IEEE Communications Surveys & Tutorials.
Ball, L.J., Richardson, B.H. (2022). Eye Movement in User Experience and Human–Computer Interaction Research. In: Stuart, S. (eds) Eye Tracking. Neuromethods, vol 183. Humana, New York, NY.
L. Lamport: Time, clocks and the ordering of events in a distributed system. Concurrency: the Works of Leslie Lamport, 2019. Originally appeared in 1978.
Damiani, M. L., Acquaviva, A., Hachem, F., & Rossini, M. (2020, November). Learning behavioral representations of human mobility. In Proceedings of the 28th International Conference on Advances in Geographic Information Systems (pp. 367-37)
Bariah, Lina, and Merouane Debbah. “AI Embodiment Through 6G: Shaping the Future of AGI.” Authorea Preprints (2024).