La Visione Computerizzata – nel seguito Computer Vision, CV – è una branca dell’Intelligenza Artificiale (IA) che ha come obiettivi estrarre informazioni da immagini e video, in modo analogo alla visione umana; si propone di realizzare tecniche per interpretare i segnali visivi provenienti da foto- o videocamere.
Recenti, straordinari progressi della CV sono stati realizzati per il convergere di sviluppi tecnologici: l’apporto fondamentale dell’Apprendimento automatico (Machine Learning), e in particolare dell’Apprendimento Profondo (Deep Learning); la possibilità di sfruttare il grande patrimonio di dati presenti in rete (big data); le nuove opportunità dell’IA Generativa, in grado di produrre nuovo testo, immagini, video in risposta a richieste dell’utente. In un precedente articolo [1] abbiamo presentato un’introduzione alla CV; a essa ci riferiamo per la terminologia adottata in questa sede.
I settori di applicazione della CV riguardano l’intera società, e non è possibile renderne un’idea compiuta. Daremo qui una panoramica delle aree da cui si attendono innovazioni importanti, esempi di ciò che è stato chiamato uso etico dell’IA (Ref.[2]). Una sintesi è riportata nello schema in Fig.1: a ciascuna delle aree è dedicato un paragrafo nel seguito.
La computer vision in agricoltura e allevamento
Vi è carenza di manodopera in questi settori, e quindi l’automazione e soprattutto la remotizzazione sono quanto mai necessarie. E’ altrettanto necessaria la gestione ottimale delle risorse e del suolo [3]. In Figura 2, alcune direzioni di sviluppo.
Agricoltura di precisione. Rilevamento delle condizioni del suolo con aerei, droni. Interpretazione di immagini rilevate in molteplici bande di frequenza (iperspettrali). Uso efficiente di risorse: acqua, nutrienti, antiparassitari.
- Monitoraggio delle colture. Crescita, distribuzione sul terreno. Grado di maturazione. Conteggi non invasivi.
- Patologia vegetale. Rilevamento e diagnosi remota delle patologie delle piante.
- Monitoraggio del suolo. Generazione di mappe digitali delle colture. Lo stress idrico.
- Monitoraggio del bestiame da allevamento. Misure biometriche non invasive: parametri fisici; movimenti; comportamenti (esempio in Figura 3).
- Tracciabilità dei prodotti agricoli. Lettura di codici a barre e QR. Tracciamento automatico.
- Robotica agricola. Remotizzazione di lavori agricoli. Supporti visivi alla meccanizzazione.
Figura 3
La Computer Vision svolge in automatico molti compiti (task) sinora svolti da persone: ne illustriamo alcuni in Figura 3, con un esempio tratto da un allevamento [4]. Nell’immagine in alto a sinistra compaiono cinque galline: a partire dall’immagine il computer svolge i compiti che seguono.
(a) Classificazione automatica: in basso a sinistra la scritta ‘5 hens’ (5 galline) prodotta dal computer;
(b) Rilevamento di elementi (object detection): ogni elemento è rilevato, classificato e racchiuso da un rettangolo verde.
(c) Segmentazione semantica: nell’insieme di elementi si sono rilevate alcune forme stimandone perimetro e area, indicati in bianco; lo sfondo è stato uniformato e indicato in nero.
(d) L’analisi viene raffinata: i singoli elementi e le rispettive forme sono state rilevate e indicate con colori differenti (instance segmentation).
(e) Rilevamento di posizione (pose estimation): di ogni forma si effettua un’analisi più dettagliata, rilevando la posizione di particolari sull’immagine: testa; collo; ali di destra e sinistra; coda.
(f) Compiti di analisi del movimento (tracking): il rilevamento della posizione di uno dei dettagli – il punto di mezzo, indicato con un colore differente per ciascun elemento – in tre istanti di tempo successivi, indicati con T, T+1, T+2; nell’immagine in basso a destra sono ricostruite le traiettorie percorse da ciascun elemento nell’intervallo di tempo complessivo.
La CV nella protezione ambientale
L’Intelligenza Artificiale offre importanti prospettive per la transizione ecologica e le azioni di difesa dai cambiamenti climatici (Ref.[5]). Ci limitiamo alle aree applicative della CV nell’ambito della protezione ambientale, riportate in Figura 4. Innovazioni si attendono soprattutto dall’apprendimento dei big data da satelliti, aerei, droni, con l’obiettivo di migliorarne l’accuratezza e la tempestività.
- Servizi meteorologici. Coordinamento multisensore (data fusion). Supporti alle previsioni. Supporti all’emissione di allerta meteo.
- Qualità delle acque. Rilevamento remoto e tracciamento di inquinanti: alghe tossiche, microplastiche, idrocarburi,…
- Qualità dell’aria. Rilevamento e tracciamento di inquinanti e gas serra: CO2, Metano,…
- Gestione dei rifiuti. Classificazione visiva automatica.
- Degrado del suolo. Monitoraggio delle erosioni costiere. Consumo del suolo. Rilevamento dello stress idrico. Rilevamento precoce di incendi boschivi.
- Monitoraggio della fauna selvatica. Rilevamento remoto non invasivo. Identificazione delle specie selvatiche e conteggi automatici. Monitoraggio degli spostamenti.
- Mappatura di ecosistemi sensibili. Monitoraggio della deforestazione e delle aree protette. Mappe di rischio di inondazioni e alluvioni (Figura 5).
Figura 5
In figura, un’immagine satellitare della città di Trieste. Ad essa sono sovrapposti strati di colore uniforme che indicano i livelli di rischio di inondazioni, specificati in alto a destra. L’immagine risulta da un lavoro di ricerca [6] che combina tre tecnologie digitali: le Immagini satellitari; i Sistemi Informativi Geografici (GIS); la Computer Vision con tecniche di apprendimento automatico.
Innovazioni di IA e CV in biomedicina
Per il mercato delle innovazioni di IA e CV nei Servizi sanitari (Healthcare) si prevede una crescita annua media del 47.8% nel periodo 2023-2030, Ref.[7]. Si attendono innovazioni importanti dall’apprendimento automatico dei big data sanitari, e dalla medicina di precisione nella diagnosi e nella terapia.
- Diagnostica per immagini. Super-risoluzione in Tomografia; Mammografia; Ecografia. Miglioramento della sensibilità e diagnosi precoce.
- Patologia digitale. Supporto alle analisi di campioni digitalizzati. Identificazione di anomalie. Trasmissione a distanza (Telepathology). Esempio in Fig.7.
- Segmentazione digitale. Individuazione precisa e personalizzata degli organi nelle immagini: semantic e instance segmentation (Fig.7, e Figg.3(c),3(d)). Misure biometriche e monitoraggio delle variazioni nel tempo.
- Medicina personalizzata. Medicina di precisione. Analisi e apprendimento del profilo genetico del paziente; dati clinici; stili di vita. Selettività nella terapia (Target therapy).
- Medicina predittiva (Ref.[8]). Individuazione precoce dei fattori di rischio.
- Chirurgia robotizzata. Strumenti visivi per chirurgia mini-invasiva. Modellazione grafica 3D per la navigazione chirurgica. Supporti alla didattica.
- Monitoraggio remoto e Telemedicina. Remotizzazione di alcune fasi di terapia: follow-up; riabilitazione.
Figura 7
In Figura 7, tecnologie della CV nella Patologia digitale: segmentazione di nuclei cellulari, Ref.[9]. A sinistra l’immagine originale, che proviene da una sperimentazione sui tessuti polmonari. Nell’immagine al centro ogni pixel è stato classificato usando i colori nero (lo sfondo), verde, azzurro, giallo e ottenendo un’immagine segmentata; si veda anche la Figura 3(c). Nell’immagine a destra ogni singolo (instance) nucleo cellulare viene identificato e classificato usando colori differenti; si veda anche la Fig.3(d).
CVC e beni culturali
La CV contribuisce ad una migliore fruizione dei Beni culturali, soprattutto attraverso la digitalizzazione e la modellazione grafica 2D e 3D; l’integrazione con le tecnologie della Realtà virtuale e la Realtà aumentata. Progressi importanti si attendono dall’edge computing: tipo di programmazione in cui elaborazione e memorizzazione dei dati avvengono il più vicino possibile all’utente, ad esempio su un cellulare. Questo favorisce la personalizzazione dei contenuti e riduce i tempi di latenza delle informazioni, in contrasto con il cloud computing in cui l’elaborazione è centralizzata in un data center.
- Rilevamento dei dati digitali. Aerofotogrammetria; magnetometria; laser scanning 3D. Localizzazione; archiviazione e Sistemi Informativi Geografici (GIS).
- Modellazione grafica. Ricostruzione 2D, 3D di manufatti di interesse archeologico e architettonico. Stampa 3D.
- Percorsi museali e turistici. Edge computing e personalizzazione. Mappatura 3D dell’ambiente museale; posizionamento GPS del visitatore/-ice. Strumenti dell’IA generativa e integrazione con la CV: dialoghi con i Large Language Models (LLM).
- Esperienze per i visitatori. Tecnologie immersive. Realtà virtuale. Interattività. Multiverso.
- Accessibilità. Nuovi strumenti multimediali per disabilità visive, motorie, cognitive. Esperienze tattili.
- Conservazione e restauro. Rilevamento iperspettrale di opere d’arte: infrarosso, ultravioletto, raggi-X. Analisi dell’usura. Restauro digitale e simulazione.
- Autenticazione. Apprendimento e riconoscimento di caratteri stilistici da archivi di opere autentiche. Confronti.
Figura 9
In Figura 9 è illustrata un’esperienza di realtà aumentata offerta ai visitatori della Barnes Foundation di Philadelphia, USA (Ref.[10]). Il sito web dell’Istituzione funge da guida, e la visitatrice/-ore usa la fotocamera del cellulare per focalizzare la sua attenzione, ritraendo tutta o parte di un’opera d’arte anche in modo impreciso: un dipinto, una statua, un oggetto. In Figura è riportato l’esempio del dipinto di Cezanne intitolato ‘Vaso dello Zenzero’. Solo un dettaglio del dipinto è stato ripreso nel fotogramma a sinistra in Fig.9, ma è sufficiente perché il sistema di CV lo riconosca e richiami la specifica pagina del sito web. Quindi, al visitatore viene mostrata l’immagine del dipinto completo col suo apparato esplicativo.
Automazione aziendale e computer vision
Dalla CV ci si attendono innovazioni importanti [11] nei settori del controllo di qualità dei prodotti industriali; del monitoraggio dell’usura delle apparecchiature; del rafforzamento delle misure di sicurezza in ambienti di lavoro.
- Controllo di qualità nella produzione industriale. Ispezione visiva automatica (Figura 11).
- Manutenzione predittiva. Monitoraggio dei parametri di funzionamento di una macchina; rilevamento precoce dell’usura. Misure di prevenzione dei guasti.
- Monitoraggio della sicurezza sul lavoro. Apprendimento automatico dei comportamenti a rischio. Analisi visiva in tempo reale dei gesti e dei comportamenti.
- Automazione della logistica. Rilevamento di posizione dei prodotti in magazzino. Tracciamento visivo del trasporto. Sorveglianza per la prevenzione dei furti.
- Riconoscimento di prodotti. Supporti visivi alla manipolazione; all’assemblaggio; al confezionamento.
- Navigazione autonoma. Ottimizzazione dei percorsi e dei tempi di trasporto in azienda.
- Digital twins. Modelli digitali di macchine e di dettagli dei processi di lavorazione. Simulazione e prevenzione dei guasti. Misure per la sicurezza sul lavoro.
Figura 11
In Figura 11 immagini di difetti di lavorazione in alcuni prodotti industriali: sono stati automaticamente rilevati dal computer e inquadrati graficamente in rettangoli colorati. (a) Un componente elettronico: un difetto nella deposizione dello strato metallico; (b) Effetti di corrosione in una conduttura; (c) Fuoruscita di gas anomala per difetti di porosità; (d) Materiale tessile: nodo fuori misura; (e) Difetti di assemblaggio; (f) Difetti in una carrozzeria distinti con rettangoli di colori diversi: verde-graffio; giallo-cavità; arancio-riempimento; (g) Difetto in una ruota dentata; (h) Dispersione di illuminazione nello schermo di un computer mobile.
Mobilità e veicoli autonomi
Dalla CV si attendono innovazioni soprattutto dal controllo visivo del traffico veicolare (Ref.[12]); e dalla combinazione di segnali visivi con segnali da altri sensori. Nuovi progressi sono attesi nei settori dei veicoli teleguidati e a guida autonoma.
- Smart city e gestione del traffico. Identificazione di pedoni; veicoli; targhe; segnali in condizioni di traffico intenso. Ottimizzazione del controllo della segnaletica (semafori, sensori di velocità,…). Rafforzamento visivo di misure di sicurezza stradale.
- Analisi del movimento e tracking. Interpretazione di sequenze video (Video analytics). Monitoraggio del traffico autostradale.
- Sicurezza stradale e nella guida. Individuazione di condizioni pericolose e misure preventive. Rilevamento di ostacoli improvvisi nella guida.
- Fusione multisensoriale. Coordinazione con comandi vocali. Supporti alla migliore percezione delle distanze e profondità.
- Veicoli teleguidati (Remotely-Operated Vehicles, ROV). Droni per sorveglianza. Guida collaborativa (Vehicle-to-Vehicle, V2V). Condivisione dei dati dell’ambiente e del traffico.
- Veicoli a guida autonoma (Unmanned Autonomous Vehicles, UAV) in ambienti ad alta densità di traffico.
- Modellazione grafica dell’ambiente. Operazioni in tempo reale. Riduzione dei punti ciechi.
Figura 13
In Figura 13 una tipica scena di traffico urbano veicolare e pedonale [13]. La difficoltà del riconoscimento consiste nelle quantità di oggetti e nella parziale sovrapposizione (occlusione) di alcuni su altri; anche un osservatore umano avvertirebbe queste difficoltà. Con la Computer Vision si è operato un rilevamento (object detection, si veda anche la Fig.3(b)). Si noti che il computer ha delimitato oggetti visibili a livelli di dettaglio e di illuminazione molto diversi: semafori; auto; camion; persone; autobus; borsetta.
Computer vision e sicurezza
Col termine si indica un insieme vastissimo di problemi e scopi spesso contrastanti, che riguardano tutti i compiti dell’IA, più volte citati nei precedenti paragrafi. Ci limiteremo a problematiche di rilevamento della figura umana (Ref.[14]); si tratta di un tema tradizionale per la Computer Vision, in cui nuovi avanzamenti sono attesi. Anche per la sicurezza, importanti innovazioni si attendono dall’edge computing (par.5).
- Analisi dei volti. Individuazione di volti (face detection). Analisi di parametri biometrici (face recognition). Identificazione automatica di un volto.
- Riconoscimento emotivo. Analisi di espressioni del volto; intenzioni; connotati psicologici
- Tutela della privacy. Autenticazione visiva. Sistemi visivi per la protezione della privacy (privacy-preserving visual systems). Offuscamento percettivo (perceptual obfuscation).
- Monitoraggio di comportamenti. Analisi di gesti; interazioni; comportamenti. Misure preventive di sicurezza e allarmi automatici.
- Integrazione con IoT e Smart Home. Sistemi di visione integrati e Internet of Things (IoT). Edge computing e interconnessione con reti domestiche (Domotica). Manutenzione visiva predittiva (visual predictive maintenance).
- Indagini di interesse legale (Forensics). Miglioramento di qualità di immagini a scopi investigativi. Identificazione automatica di persone/oggetti. Tracciamento di persone e comportamenti in sequenze video. Analisi di gruppi di persone (crowd video analysis), esempio in Figura 15.
- Operazioni in ambienti ostili. Combinazioni con droni e robot. Esplorazioni e analisi in ambienti contaminati. Ricerche su fondali marini e ambienti ostili.
Figura 15
Sono illustrati i risultati [14] del rilevamento di volti in una situazione complessa, dovuta alla molteplicità di persone; alle sovrapposizioni tra esse (occlusioni); alla variabilità di posizionamenti ed espressioni; alle grandi differenze di luminosità dei volti tra luci e ombre. Oltre al rilevamento vi è la possibilità di valutare con approssimazione le caratteristiche biometriche e l’identità dei volti.
Il carattere trasversale e multidisciplinare delle tecnologie della CV
La Computer Vision ha acquisito spazio nell’ambito dell’Intelligenza Artificiale per la varietà di innovazioni a cui dà origine. In questo documento ne abbiamo dato un’idea schematica e necessariamente parziale: la scelta è caduta su sette macro-aree applicative presentate in Figura 1. Di ciascuna di esse abbiamo elencato sette direzioni di sviluppo che riteniamo di particolare interesse per l’uso etico dell’IA. Abbiamo preferito illustrare aspetti positivi piuttosto che insidie, perché a nostro avviso è necessario dare spazio a una informazione sull’IA che sia positiva, aperta e responsabile.
Se ci domandiamo in sintesi quali vantaggi attenderci dalla CV nell’immediato futuro, emergono dalla nostra discussione innanzitutto le potenzialità offerte dall’apprendimento dei big data. Il trattamento dei dati diviene un servizio attivo orientato all’utente: ed è affascinante pensare alle ricchezze ancora nascoste nelle miniere di dati, che finalmente potremo ricavare a vantaggio delle nostre conoscenze.
Ne consegue che grazie alla CV migliorano in modo decisivo – in senso statistico – la precisione, l’affidabilità, la capacità predittiva, per i compiti di prevenzione e monitoraggio cui abbiamo accennato in ogni area di applicazione. Ricordiamo l’agricoltura di precisione (par.2); la medicina di precisione con la personalizzazione di diagnosi e terapie (par.4); la medicina predittiva (par.4). Le stesse capacità predittive della CV si applicano alla protezione ambientale per la valutazione di aree a rischio (par.3); alla sicurezza sul lavoro (par.6); alle verifiche di qualità nei processi industriali (par.6).
Altri progressi derivano dall’edge computing, le tecnologie informatiche per cui le applicazioni di Intelligenza Artificiale si eseguono in modo prossimo all’utente: l’IA e la CV si spostano sui cellulari, come presto accadrà, ad esempio, a beneficio della domotica (par.8). L’edge computing è un motore tecnologico anche nell’universo dell’Istruzione, dei Beni culturali, del Turismo verso la personalizzazione dei percorsi e delle esperienze, anche per i portatori di disabilità. Per questi scopi, grandi potenzialità derivano anche dalla integrazione tra IA, Computer Vision e Grafica computerizzata. In particolare, l’IA delle tecnologie linguistiche (par.5) combinata alla CV produce preziosi strumenti di dialogo e approfondimento culturale. Citiamo infine le prospettive nell’integrazione con meccanica, mobilità e robotica. Il ruolo della CV è essenziale per operare a distanza (remotizzazione) in agricoltura (par.2); nel controllo del traffico e guida autonoma (par.7).
Appare evidente il carattere trasversale e multidisciplinare delle tecnologie della CV, che nell’automazione di compiti ‘intelligenti’ fa da tratto di unione tra capacità sensoriali e cognitive: un’integrazione che porta dai dati alla sintesi di conoscenze.
La CV e l’IA sono davvero in grado di modificare la nostra vita, e le loro straordinarie potenzialità sono ancora inespresse. Ormai non vi è dubbio che i processi di trasferimento delle innovazioni cui abbiamo accennato, devono essere regolamentati dalle Istituzioni pubbliche internazionali e locali, perché non vadano perdute le opportunità dell’uso etico, responsabile dell’IA. Sarà una delle sfide degli anni a venire, che, in ultima analisi, richiede sforzi coraggiosi per investimenti nel campo dell’istruzione.
Bibliografia
[1] Roberto, V.: Computer Vision, Decodificare il Mondo con l’IA: Applicazioni e Possibili Sviluppi. Agenda Digitale, 15 Ottobre 2024.
[2] Floridi L.: Etica dell’Intelligenza Artificiale. Raffaello Cortina Ed., Milano, 2022
[3] Boesch, G.: Computer Vision in Agriculture – The Best Applications. Viso.ai Blog, 2023.
https://viso.ai/applications/computer-vision-in-agriculture
[4] Guoming Li, Yanbo Huoang, Zhiquian Chen, Chesser G.D. Jr., Purswell J.L., Linhoss J. and Yang Zhao: Practices and Applications of Convolutional Neural Network-Based Computer Vision Systems in Animal Farming: A Review. Sensors, Vol.21(4), p.1492, 2021.
https://doi.org/10.3390/s21041492
[5] Lynn, T.: How to Use Computer Vision for Environment Monitoring. Roboflow Blog, 2023. https://blog.roboflow.com/computer-vision-environmental-impact-monitoring/
[6] Antzoulatos G., Kouloglou I.O., Bakratsas M., Moumtzidou A., Gialampoukidis I., Karakostas A., Lombardo F., Fiorin R., Norbiato D., Ferri M., Symeonidis A., Vrochidis S. and Kompatsiaris I.: Flood Hazard and Risk Mapping by Applying an Explainable Machine Learning Framework Using Satellite Imagery and GIS Data. Sustainability, Vol.14(6), p.3251, 2022. https://doi.org/10.3390/su14063251
[7] Haritonova, A.: 8 Cutting-Edge Applications of Computer Vision in Healthcare: Bridging Tech and Health. Pixelplex Blog, 2024.
https://pixelplex.io/blog/computer-vision-in-healthcare
[8] Sharma A., Lysenko A., Jia S., Boroevich K.A. and Tsunoda T.: Advances in AI and Machine Learning for Predictive Medicine. Journal of Human Genetics, Vol. 69, pp.487–497, 2024. https://doi.org/10.1038/s10038-024-01231-y
[9] Wang S, Yang DM, Rong R, Zhan X, Xiao G.: Pathology Image Analysis Using Segmentation Deep Learning Algorithms. American Journal of Pathology, Vol.189(9), pp.1686-1698, 2019
[10] Luna Hu: Image Recognition Technology Use in Museums, 2020.
https://amt-lab.org/blog/2020/1/image-recognition-technology-in-museums
[11] Jing Yang, Shaobo Li, Zheng Wang, Hao Dong, Jun Wang and Shihao Tang: Using Deep Learning to Detect Defects in Manufacturing: A Comprehensive Survey and Current Challenges. Materials, Vol.13(24), p.5755, 2020. https://doi.org/10.3390/ma13245755
[12] Boesch, G.: The Top Computer Vision Smart City Applications. Viso.ai Blog, 2023. https://viso.ai/applications/computer-vision-in-smart-city-applications/
[13] Mihajlovic I.: Everything you Ever Wanted to Know about Computer Vision, 2019.
[14] AA.VV.: Face Detection: Real-Time Deep Learning Applications (2024 Guide).
Viso.ai Blog. https://viso.ai/deep-learning/face-detection-overview/