l'approfondimento

Affrontare le sfide di robotica e IA con la scienza della percezione

Le questioni dell’orientamento nello spazio, del coordinamento e dell’apprendimento dei robot autonomi implicano dei problemi che sono stati già affrontati dalla scienza della percezione che, quindi, può contribuire alla loro soluzione direttamente o indirettamente. Ecco in che modo

Pubblicato il 19 Apr 2023

Carmelo Cali

Dipartimento di Scienze Umanistiche Università degli Studi di Palermo

IA intelligenza artificiale ai generativa e copyright

Teorie e evidenze della scienza della percezione possono dare un contributo per affrontare alcune sfide della robotica e dell’IA: l’integrazione qualitativa delle abilità di localizzazione e mapping dei robot mobili, l’approccio sistematico alla progettazione di robot swarms, la costruzione di capacità artificiali di apprendimento per conoscenze sistematiche sul mondo e sugli altri.

Percezione esperienza o educazione? (tratto da EducataMENTE)

Percezione esperienza o educazione? (tratto da EducataMENTE)

Guarda questo video su YouTube

Le grandi sfide della robotica e dell’IA

Nel 2018 Science Robotics ha pubblicato una rassegna dei campi in cui si concentrano le sfide che secondo gli esperti la ricerca in robotica e IA deve affrontare per rispondere a questioni significative per la vita quotidiana grazie al progresso scientifico:

  • sviluppare nuovi materiali, modi di produzione e schemi di progettazione per robot con capacità analoghe agli organismi biologici o che incorporino componenti biologici in strutture artificiali;
  • scoprire nuove tecnologie per generare e conservare energia e aumentare l’autonomia dei robot;
  • specificare le abilità con cui i robot esplorano e si adattano agli ambienti in cui si muovono;
  • identificare principi di progettazione per gruppi coordinati di robot;
  • elaborare metodi IA di apprendimento con elevate prestazioni seppure con vincoli stringenti per numero di dati e tempi di addestramento;
  • trasferire agli agenti artificiali le competenze sociali con cui gli uomini interagiscono, affinché si integrino nella nostra vita quotidiana;
  • lavorare sulle tecnologie per le interfacce cervello-computer (BCI) come mezzi di comunicazione e riabilitazione per soggetti affetti da sindromi neuro-psicologiche e patologie senso-motorie;
  • definire un sistema di principi per affrontare le domande etiche, normative e di sicurezza sollevate dall’innovazione tecnologica.

Nonostante i progressi notevoli registrati da allora, queste questioni sono ancora oggetto di ricerca. Le questioni dell’orientamento nello spazio, del coordinamento e dell’apprendimento implicano dei problemi che sono stati già affrontati dalla scienza della percezione che, quindi, può contribuire alla loro soluzione direttamente o indirettamente. Non è una circostanza nuova. La Scienza Cognitiva nacque quando filosofi, psicologi, linguisti, antropologi e ricercatori di computer science e IA concordarono che i processi cognitivi non pongono alla ricerca problemi complessi scomponibili in sotto-problemi semplici da risolvere indipendentemente privilegiando una particolare disciplina. I problemi della cognizione e dell’adattamento intelligente all’ambiente sono scomponibili, invece, in funzione dell’interazione tra fattori diversi ed è verosimile che il loro studio richieda l’integrazione di teorie e scienze diverse. Presenteremo, allora, tre questioni che possono beneficiare di uno studio interdisciplinare per indicare poi quali teorie e evidenze su alcune abilità del sistema visivo umano permettono di impostare i problemi in modo da indirizzare a una soluzione.

Sapersi muovere nell’ambiente

Affinché dei robot autonomi si muovano intelligentemente nello spazio per realizzare con successo compiti ben definiti o per esplorare l’ambiente e gli oggetti circostanti, è necessario che possiedano varie abilità: localizzare la propria posizione, orientarsi con una mappa o un sistema di riferimento, riconoscere oggetti, evitare gli ostacoli, pianificare il percorso. La ricerca ha definito la struttura di questi problemi e enormi progressi sono stati fatti nel fornire una soluzione teorica per dotare i robot di queste abilità.

Si immagini di spostarsi in un ambiente con una qualche meta. Se almeno una porzione dell’ambiente è già nota, il movimento si accompagna alla visione di aspetti delle cose che confermano quanto sappiamo e possiamo usare queste osservazioni per localizzare la nostra posizione nel percorso. Se l’ambiente non è noto, possiamo ottenere informazione sulla posizione da una fonte esterna e controllare che le osservazioni si accordano con le previsioni sulla direzione da prendere. Nei due casi, useremo l’ambiente o la posizione come una conoscenza indipendente per estrarre dalle osservazioni informazioni su dove siamo o sui luoghi che attraversiamo e decidere così il percorso di avvicinamento alla meta. Si immagini adesso di muoversi in un ambiente mai visitato prima e senza nessun indizio di dove siamo. Per decidere dove andare, dovremmo ricavare da ciò che vediamo informazione sia per tenere conto dei luoghi sia per capire dove siamo. Si tratta di un problema di difficile soluzione, perché dovremmo risolvere contemporaneamente due sotto-problemi che dipendono l’uno dall’altro. Questa è la condizione di un robot mobile autonomo che non si può dotare in anticipo della conoscenza dell’ambiente per ragioni di economia e flessibilità.

Intelligenza artificiale e apprendimento: le origini e il futuro delle reti neurali

Il paradigma Simultaneous Localisation and Mapping (SLAM)

Alcuni ricercatori hanno riformulato il problema come Simultaneous Localisation and Mapping (SLAM): un robot che non sa qual è la propria posizione in un ambiente sconosciuto è in grado di costruire una mappa corretta dell’ambiente e di determinare la posizione in essa man mano che lo percorre?

Il riferimento alla mappa è giustificato perché essa è composta da punti di riferimento che contraddistinguono i luoghi attraversati. Una mappa rappresenta bene la conoscenza all’ambiente e l’osservazione dei punti di riferimento consente di correggere gli errori di previsione sul percorso. Se il robot confidasse solo sui dati degli attuatori, per esempio l’angolo di sterzo e il raggio delle ruote per calcolare la distanza dal punto di partenza e ricostruire il percorso, la stima della posizione si allontanerebbe abbastanza presto e sempre più da quella reale a causa degli errori nelle misure ripetute della velocità. L’integrazione dei dati con una camera, un giroscopio o un accelerometro, al robot ridurrebbe l’errore, ma non basterebbe a dare al robot la capacità di distinguere un ambiente a forma di otto da un corridoio senza intersezioni a parità di percorso. Il robot non potrebbe prevedere di raggiungere un luogo visitato precedentemente grazie a una scorciatoia. Invece, la costruzione di una mappa permette al robot sia di resettare gli errori riconducendo la stima della posizione ai punti di riferimento acquisiti sia di riconoscere la forma della connessione tra luoghi (loop closure).

Dunque, i termini per rappresentare la conoscenza utile a risolvere il problema diventano: un vettore (serie ordinata di valori) degli stati del robot che ne descrive lo stato (posizione e orientamento), un vettore dei controlli che fanno muovere il robot, un vettore per i punti di riferimento, le osservazioni dei punti di riferimento in tempi dati. Se si aggiungono gli insiemi dei valori di stati e controlli fino a un tempo dato, di tutti i punti di riferimento e di tutte le osservazioni, la soluzione teorica del problema consiste nel calcolare la probabilità congiunta che da uno stato iniziale noto e in un tempo dato il robot si trovi in uno stato rispetto a un punto di riferimento, date le osservazioni e i controlli fino a allora.

L’incertezza nel determinare la localizzazione e l’ambiente in un tempo dato è ristretta dalla conoscenza registrata sulla mappa fino a quel tempo. Infatti, le stime della probabilità che i punti di riferimento occupino una certa posizione lungo un percorso sono correlate, ma l’eventuale errore nella stima del punto X rispetto al precedente Y non cresce, anzi si riduce. Muovendosi, il robot osserva nuovamente X rispetto al punto successivo Z, aggiornandone la stima e correggendo l’errore. La correzione della stima di X rispetto a Z aggiorna anche quella di Y. In generale, la stima della posizione relativa di ogni coppia di punti avverrà grazie a un’osservazione con cui si aggiorna quella delle coppie di punti precedenti.

Quindi, il problema ha una proprietà teorica fondamentale: la convergenza delle stime. Poiché la correlazione tra stime successive cresce in maniera monotona con le osservazioni, la probabilità che i punti di riferimento siano realmente dove previsto aumenterà, anche se l’incertezza su un solo punto è elevata, e la conoscenza della loro posizione relativa tenderà a stabilizzarsi. Dal momento che la localizzazione del robot è simultanea al posizionamento dei punti sulla mappa, anche le stime del suo stato convergeranno nonostante l’incertezza generata dal movimento. All’aumentare delle osservazioni, cresce la probabilità congiunta di localizzarsi correttamente rispetto alla mappa e di costruire una mappa corretta.

Robotica collaborativa, perché è la chiave per l’industria 5.0

Alla soluzione teorica del problema è seguita la formulazione di algoritmi per l’implementazione in varie piattaforme robotiche, con l’obiettivo di ridurre i costi di computazione e mantenere affidabile l’associazione tra localizzazione e posizionamento dei punti di riferimento. La definizione teorica è stata poi affinata integrando teoria dei grafi, geometria e ottimizzazione. SLAM è un paradigma di successo, ma le potenzialità di sviluppo hanno imposto nuove sfide che richiedono di dotare i robot di “percezione robusta”, con cui operare a lungo in ambienti diversi, ricavare informazione sulla struttura dell’ambiente e degli oggetti, selezionare l’informazione rilevante e sintonizzare le risorse sensoriali e computazionali con il compito e l’ambiente (Cadena et al., 2016).

Infatti, tradizionalmente il paradigma SLAM assumeva che i punti di riferimento fossero in quiete e l’ambiente immutato, mentre il robot si muoveva al suo interno. Questa assunzione non è più valida se si prolunga la durata del compito o si estende l’ambiente in cui il robot opera. I cambiamenti che riguardano lo stesso ambiente durante diverse ore del giorno o stagioni e quelli che accompagnano il passaggio tra ambienti diversi mettono alla prova la stessa identificazione di punti di riferimento, quindi la localizzazione. Solitamente i punti di riferimento sono stati assimilati a enti astratti (punti geometrici) o specificati come tratti distintivi (features), per esempio linee o angoli che stanno per spigoli e vertici, che i sensori rilevano agendo come filtri. Mutamenti delle condizioni ambientali ne alterano però la visibilità e i metodi di rilevazione ideati non ne preservano l’aspetto eventualmente invariante per la misura e il riconoscimento. Inoltre, prolungare la missione comporta il problema di tenere traccia o scartare le alterazioni nella rilevazione, distinguendo i cambiamenti dalle variazioni contingenti. Per aggiornare fedelmente la mappa, il robot deve possedere delle strategie correlate di ri-localizzazione. Anche senza considerare i cambiamenti ambientali e ammettendo che sia dotato di un sensore che rilevi tratti costanti in un certo intervallo di tempo, come una camera con un frame rate adeguato, il robot deve poi essere in grado di rilevare le apparenze diverse dello stesso tratto o dell’ambiente indotte dai mutamenti dovuti al movimento. Il ricorso a algoritmi RANSAC (Random sample consensus) per ricavare i parametri per verificare la corrispondenza geometrica dei tratti è costosa, perché una probabilità affidabile richiede un’applicazione ripetuta a molti campioni casuali di osservazioni. Inoltre, il robot dovrebbe anche affinare i parametri per decidere se aggiungere un nuovo tratto a quelli abilitati per l’osservazione dei punti di riferimento o quando attivare il loop closure.

Questi problemi hanno indotto la comunità di ricerca a interrogarsi sull’opportunità di ottimizzare i sensori per la precisione della rilevazione, piuttosto che per la velocità, e soprattutto sulla possibilità di integrarli con dei primitivi per la rappresentazione di oggetti. La costruzione della mappa passa così dall’osservazione dei punti di riferimento, distinti da tratti, al riconoscimento di oggetti tramite primitivi. Il dibattito sui primitivi è ancora aperto: insiemi di punti non strutturati per camere RGB-D (che assegnano a ogni pixel una distanza dalla lente), insiemi densi di dischi (surfel) o di poligoni per approssimare le superfici, bordi (b-reps) per ricostruire le superfici, reticoli di moduli cubici per suddividere lo spazio, cilindri variabili lungo gli assi (cilindri generalizzati) da far corrispondere alle forme solide di cui sono composti gli oggetti. La scelta dei primitivi da adottare dipenderà dalla quantità di informazione da immagazzinare e trasmettere, dal tempo richiesto per la costruzione della mappa, ma anche dall’efficacia nell’osservazione e dalla capacità di ragionare sul percorso e sull’ambiente che ne consegue.

Sentire e agire in gruppo

La capacità di agire in gruppo consente a una pluralità di robot relativamente piccoli di portare a termine compiti almeno con la stessa efficacia e costi minori di un unico robot più grande. Sebbene le funzioni sensoriali e comunicative dei singoli robot possano essere limitate, li si può progettare in modo che le integrino, aggregandosi in formazioni per coordinare le operazioni e realizzare così un’azione congiunta. In gruppo, molti robot semplici possono risolvere problemi complessi in modo più robusto e adattabile di un solo robot, che dovrebbe essere riprogrammato per svolgere compiti diversi o operare in condizioni differenti rispetto a quanto previsto dalla progettazione.

La ricerca sui robot con capacità di coordinamento deriva dalla swarm robotics, ispirata dallo studio dell’intelligenza collettiva (swarm intelligence) degli animali sociali che si aggregano in sciami, banchi, stormi per fronteggiare le pressioni della selezione naturale con successo. Infatti, la forma di queste aggregazioni ha proprietà che abilitano un comportamento più efficace e vantaggioso rispetto a quello individuale. Esistono già piattaforme note di robot multi-uso o specializzati (Jasmine, alice, e-puck, kilobots, crazyflies, swarmanoids, swarm-bots) con potenziali applicazioni in svariati ambiti a scala macro, micro e nano.

Il problema principale consiste nella progettazione di singoli robot che però deve soddisfare requisiti descrivibili al livello superiore in cui si manifesta il comportamento intelligente condiviso. Le soluzioni devono tenere conto delle abilità sensoriali e comunicative dei singoli robot, omogenee o eterogenee, del compromesso tra autonomia e capacità di interazione di ogni robot. È attraverso la “non-indipendenza” delle risposte che i robot si coordinano generando un comportamento collettivo per risolvere compiti complessi. Sono stati formulati vari algoritmi per le aggregazioni generate dal fatto che ogni robot abbia informazione su ogni altro robot, solo su un numero definito o su tutti quelli entro un raggio determinato oppure su nessuno, per la condivisione sensoriale di ciò che i singoli robot rilevano sull’ambiente e sulla localizzazione reciproca, per la sincronizzazione delle rilevazioni e azioni, per l’assegnazione di ruoli come quello di capofila o di mansioni nelle fasi di realizzazione del compito (Dorigo et al. 2021).

Le sfide per attuare le potenzialità degli agenti multi-robot derivano dai vincoli che la grandezza e il numero di robot impongono a sensori, protocolli di comunicazione e software, ma riguardano anche la ricerca di un approccio sistematico al ciclo percezione-azione come strumento per risolvere i problemi di progettazione. Quali abilità permettono ai robot di tenere conto della non-indipendenza e dei vincoli temporali delle interazioni, per affinare l’assegnazione di ruoli e compiti e adattarsi a cambiamenti dell’ambiente o dell’aggregazione? Quali permettono il controllo reciproco di robot eterogenei? La progettazione del ciclo percezione-azione ha un ruolo nella definizione di un modello di integrazione continua nello spazio e nel tempo per la formulazione degli algoritmi che regolano i singoli comportamenti e le interazioni multi-robot?

Percepire e ragionare sul mondo

I metodi di machine learning hanno permesso progressi considerevoli nell’apprendimento e nella generazione di conoscenza da parte di agenti artificiali con prestazioni intelligenti in molti domini, grazie anche a un accesso senza precedenti a una grande quantità di dati di addestramento e alla disponibilità di dispositivi di calcolo potenti e economici. Tuttavia, alcuni ricercatori hanno rilevato che l’intelligenza umana riesce a risolvere problemi molto complessi nel mondo reale, composti da dimensioni appartenenti a domini differenti, anche partendo da un numero limitato di dati (esempi, osservazioni, conoscenze apprese).

Per esempio, i neonati dimostrano di possedere la capacità di generare conoscenze sistematiche, articolate e flessibili sul mondo e sugli altri da poche osservazioni. Fin dai primi mesi di vita, si aspettano che le cose mostrino proprietà generali come la coesione per cui le parti di un oggetto non si separano o i bordi non svaniscono mentre si muovono, la continuità per cui percorsi separati non sono attraversati dallo stesso oggetto, il contatto per cui gli oggetti non interagiscono a distanza. Nel primo anno di vita, i neonati si comportano secondo una sorta di “fisica ingenua”, un insieme di conoscenze su proprietà delle cose che in fisica sarebbero studiate come leggi del moto, cinematica e dinamica. Questo dimostra proprietà notevoli dell’intelligenza umana che da un numero limitato di osservazioni estrae informazioni che sono generalizzate a ogni tipo di oggetti o interazioni, senza dovere ripetere il processo di apprendimento, per quanto le circostanze o le proprietà delle cose cambino per natura, dimensioni, tipo e numero. Anche da adulti, la fisica ingenua si rivela come una guida affidabile nella scala a cui la percezione dà accesso al mondo.

Analogamente, i neonati sono capaci di generare una sorta di “psicologia ingenua” con cui fin dai sei mesi distinguono chi aiuta e chi ostacola un’azione e da un anno quali sono le azioni richieste per raggiungere un obiettivo. Il sistema cognitivo dei neonati è presto in grado di trattare condizioni complesse in cui gli stati di due agenti sono interdipendenti o in cui a un tipo di azioni segue un tipo di effetti. In base a queste capacità, i neonati svilupperanno anche l’abilità di vedere nei movimenti degli altri non solo spostamenti o alterazioni nella configurazione di un corpo, ma azioni finalizzate distinte da effetti di cause esterne e, quindi, di attribuire intenzioni agli altri.

Dunque, la sfida dell’intelligenza artificiale è costruire macchine che apprendano e pensino secondo le regole e i meccanismi dell’intelligenza umana considerato che su queste si basa il suo successo evolutivo (Lake et al., 2016). Per vincerla, l’intelligenza artificiale dovrebbe possedere almeno due “ingredienti” fondamentali: la capacità di meta-apprendimento e la composizionalità. La prima spiega la rapidità con cui si sviluppano conoscenze articolate su un numero elevato di dati diversi, come oggetti e azioni, perché l’apprendimento acquisito accelera l’apprendimento di qualcosa di nuovo. La seconda spiega come si possa apprendere qualcosa da pochi esempi e riutilizzare la conoscenza acquisita per generare qualcosa di nuovo o decidere di eseguire compiti non previsti che hanno solo una certa pertinenza con quelli inizialmente assegnati, in modo rapido e flessibile se non creativo.

Dunque, il problema principale è bilanciare costi e benefici dei metodi di apprendimento artificiale compatibili con questi ingredienti. Il meta-apprendimento è incorporato nelle reti di deep learning (DL), almeno parzialmente. Reti DL hanno dimostrato di riconoscere e classificare archivi di dati come ImageNet (1.200 milioni di immagini a alta definizione) con prestazioni prossime a quelle umane. In genere, le reti neurali apprendono una funzione di approssimazione con cui generano un output corrispondente alla classe di tutti e soli i tratti distintivi degli input. L’apprendimento avviene tramite la modificazione dei parametri di connessione e dell’attività dei nodi della rete secondo una funzione di costo che diminuisce progressivamente l’attività di quei nodi che contribuiscono alla differenza input-output. Questa funzione è introdotta con gli input o data esternamente all’output, ma la progettazione della rete tende a escludere ogni assunzione per predire l’output (bias induttivo) indipendente dall’addestramento che modifica i parametri. Una rete DL ha molti strati di nodi di elaborazione tra quelli di input e output, con potere di astrazione crescente, e implementa algoritmi che distribuiscono la modifica dei parametri in modo ottimale tra tutti i nodi. La rete applicata a ImageNet ha 60 milioni di parametri, cinque strati per 650 mila neuroni e un vettore di output di mille valori, e necessita di processori grafici molto potenti. Come ogni altra rete, anche questa ha però bisogno di un addestramento con una elevatissima quantità di dati a differenza dell’intelligenza umana.

La composizionalità è invece incorporata dai sistemi che apprendono e rappresentano la conoscenza secondo modelli costituiti dai primitivi di un dominio. I modelli equivalgono a una teoria implicita con cui in base a concetti fondamentali e alla loro combinazione, un sistema genera inferenze sulle cause che hanno probabilmente prodotto i dati osservati e ne predice l’occorrenza, anche nel caso in cui questi mostrino proprietà nuove o inattese. Grazie ai primitivi appresi da un numero limitato di dati iniziali, un modello causale permette a un sistema cognitivo di riconoscere lo stesso oggetto sebbene appaia diversamente, distinguere oggetti diversi sebbene appaiano simili, generare oggetti nuovi riutilizzando proprietà apprese. Perciò, i modelli causali potrebbero corrispondere a “start up” software equivalenti alle capacità con cui fin dai primi mesi i neonati sviluppano una fisica e una psicologia ingenue. Si potrebbe implementare in una macchina un modello generativo costituito dai primitivi di certi domini e da schemi di produzione di modelli specifici che permettano di adattare le conoscenze o costruirne di nuove in base alla probabilità che corrispondano ai dati osservati o da generare. I primitivi e gli schemi potrebbero fungere da bias induttivi che permettono di campionare ripetutamente i dati per estrarre informazione sempre più precisa da riutilizzare in modo innovativo.

Tuttavia, l’elaborazione secondo un modello è lenta perché procedurale e la selezione di un modello causale tra quelli che avrebbero potuto probabilmente generare delle osservazioni o dei dati nuovi consiste in una ricerca costosa e quasi intrattabile per un sistema finito.

La ricerca si è indirizzata, quindi, su un’IA che incorpori la composizionalità dei modelli e utilizzi il meta-apprendimento DL per accelerare la selezione dei modelli in funzione del riconoscimento del pattern di corrispondenza più probabile con la distribuzione dei dati in un dominio o per svolgere il compito di assemblare i primitivi o trasformarne le regole di combinazione in modo nuovo.

L’intelligenza della percezione

Sotto certi aspetti, i problemi discussi sono equivalenti a quelli affrontati dalla percezione biologica. Per esempio, si immagini di trovarsi in un bosco fitto e di cercare di distinguere gli alberi, quindi la forma, e di capire quale elemento della boscaglia e del fogliame appartenga a ciascun albero. Senza contare su una conoscenza specifica, il compito risulta complesso. Si immagini, allora, di iniziare a muoversi dritto davanti a sé. Ciò che appartiene agli alberi più lontani apparirà muoversi verso di sé in maniera solidale più lentamente rispetto a ciò che è più vicino. Svoltando a sinistra e guardando un punto intermedio tra la boscaglia più vicina e più lontana, ciò che è al di qua apparirà muoversi in direzione opposta alla propria, ciò che è al di là apparirà muoversi in direzione opposta. Inoltre, ciò che è più lontano dal punto fissato apparirà muoversi con velocità maggiore di ciò che gli è più vicino. Spostamenti e velocità relative apparenti indotti dal camminare renderanno il problema più semplice. La scena osservata inizierà a districarsi, perché le qualità che appartengono a una stessa unità subiranno un cambiamento solidale. Potremmo scomporre la scena, vedere i singoli alberi e le loro parti a determinate distanze in profondità. Questo esperimento mentale rende intuitivo in che modo la visione scompone una scena complessa, riconducibile a molte configurazioni possibili date le qualità che vi compaiono, estraendo proprietà da un flusso di cambiamenti.

Globalmente il “flusso ottico” dei cambiamenti presenta proprietà dipendenti solo dall’osservatore, ma localmente queste dipendono anche dalla scena. Il flusso si compone di traslazioni, dilatazioni, rotazioni, contrazioni e espansioni ortogonali che generano cambiamenti di ciò che appare riempire una regione delimitata. La velocità del flusso di cambiamenti in direzione radiale e trasversale fanno emergere forma e curvatura delle superfici, proprietà invarianti perché indipendenti dalle coordinate delle trasformazioni.

Grazie al flusso è possibile estrarre anche relazioni utili a determinare un percorso, perché invarianti per direzione e traiettoria del movimento. Muovendosi in avanti, le coppie che si succedono come unità di volta in volta più vicina e immediatamente più lontana si spostano trasversalmente in modo da convergere, accelerando di fronte o rallentando dietro, e divergere. Se due unità si incrociano, la la rotta prosegue all’esterno di quella più lontana. Se convergono o divergono decelerando, la rotta prosegue all’esterno dell’unità più vicina. Se divergono accelerando, è probabile che essa prosegua all’esterno di quella più lontana. Queste relazioni si concatenano sulla stessa linea di vista per unità lungo il percorso e, ricondotte a un punto di riferimento esterno al percorso, permettono di stabilire la posizione della meta. Uno spostamento incoerente permette poi di distinguere il movimento reale di un oggetto rispetto a ciò che nel flusso gli sta intorno.

Il flusso è informativo perché le scene hanno struttura. Su piccola scala, la visione è sensibile alla variazione graduale della tessitura, la distribuzione stocasticamente regolare di piccole unità simili sulle superfici. Su scala più grande, essa ricorre a meccanismi che operano sulle regioni della scena caratterizzate dall’estensione di proprietà generali (omogeneità, connessione, continuità, chiusura) rispetto a due o tre coordinate per restituirle in termini di elementi volumetrici, superficiali, uni- e zero-dimensionali come spigoli e vertici e delle loro combinazioni. I meccanismi sono descrivibili come un insieme finito di regole ricorsive e indipendenti, che possono però cooperare o competere. Alcune regole segmentano le scene in cambiamenti di stato che in funzione del tempo costituiscono le relazioni cinematiche e dinamiche con cui si manifestano gli eventi, siano essi naturali o azioni. Per esempio, la cooperazione tra regole applicate a continuità e solidarietà di moto con la sensibilità alle trasformazioni del flusso abilita la visione a analizzare la configurazione delle parti di un corpo animale in movimento in componenti comuni di traslazione o rotazione e relative di moto armonico.

Rispetto a queste componenti le variazioni di angolo, direzione e distanza delle parti del corpo sono viste come contributi alla realizzazione di un’azione (camminare, correre) invece che deformazioni o semplici movimenti causati dall’esterno.

Conclusioni

Teorie e evidenze sull’intelligenza della percezione possono fornire un contributo per affrontare le sfide in robotica e IA. La capacità di sfruttare il flusso ottico per derivare la struttura locale di cose e ambiente e orientarsi può fornire indicazioni utili per assicurare una percezione robusta nel SLAM e per la progettazione di agenti multi-robot. Ci sono già dei precedenti nella formulazione di algoritmi per il flusso ottico. Tuttavia, esso è ricondotto alla corrispondenza tra unità di chiarezza costante sul piano di proiezione del movimento per le rilevazioni successive di una scena.

La non-indipendenza negli agenti multi-robot può essere tradotta in requisiti di allineamento e posizione relativa, decisivi per il coordinamento nello spazio e per la direzione. I cambiamenti di velocità e le dilatazioni del flusso ottico potrebbero servire per assegnare ruoli, evitare ostacoli e modulare velocità e direzione nel gruppo come metodo di comunicazione. Una combinazione adeguata di simili abilità potrebbe essere alla base della polarizzazione che distingue uno sciame da un banco e costituire la capacità di decidere se mutare formazione per sfruttare la proprietà più adeguata richiesta da un compito.

Il problema di acquisire conoscenze tanto articolate quanto la fisica e la psicologia ingenua con un numero limitato di dati e vincoli temporali può essere impostato in modo nuovo. Un insieme finito di dispositivi generativi piuttosto che un dizionario di primitivi può garantire la composizionalità. La loro applicazione potrebbe risultare in “proto-oggetti”, configurazioni di valori localizzati, a cui corrisponderebbero mappe qualitative o “proto-concetti”. I primi funzionerebbero da precursori di strutture più articolate, i secondi da indici di percorsi rapidi di apprendimento.

Bibliografia

Bailey, T., Durrant-Whyte, H. F. (2006). Simultaneous localisation and mapping (SLAM): Part II, IEEE Robotics & Automation Magazine, 13(3), 108–117.

Dorigo, M., Theraulaz, G., Trianni, V. (2021). Swarm Robotics: Past, present, and future, Proceedings of the IEEE, 109(7), 1152–1165.

Lake, B. M., Ullman, T. D., Tenenbaum, J. B., Gershman, S. J. (2017). Building machines that learn and think like people, Behavioral and Brain Sciences, 40, article e253.

Yang, G. Z., Bellingham, J., Dupont, P. E., Fischer, P., Floridi, L., Full, R., Jacobstein, N., Kumar, V., McNutt, M., Merrifield, R., Nelson, B. J., Scassellati, B., Taddeo, M., Taylor, R., Veloso, M., Wang. Z. L., Wood, R. (2018). The grand challenges of Science Robotics, Science Robotics, 3, 1–14.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

EU Stories - La coesione innova l'Italia

Tutti
Analisi
Video
Iniziative
Social
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4