L’intelligenza artificiale può essere un’arma potente per identificare episodi di violenza e per combattere il bullismo sia nel mondo virtuale che in quello reale.
È questo l’obiettivo del progetto “BullyBuster – A framework for bullying and cyberbullying action detection by computer vision and artificial intelligence methods and algorithms”, finanziato nell’ambito del bando relativo ai Progetti di Rilevante Interesse Nazionale (PRIN) del 2017[1], che vede coinvolti quattro gruppi di ricerca multidisciplinari afferenti a quattro atenei del Sud Italia (Università degli Studi di Bari Aldo Moro, Università degli Studi di Cagliari, Università degli Studi di Foggia, Università degli Studi di Napoli Federico II).
Vediamo di cosa si tratta.
Scovare i bulli con l’intelligenza artificiale
Bullismo e cyberbullismo sono fenomeni che, a causa della loro crescente diffusione, sono diventati una vera e propria emergenza sociale.
Le azioni violente che caratterizzano i due fenomeni, quali molestie verbali, aggressioni fisiche, persecuzioni, revenge-porn, ecc., sono generalmente condotte tra i giovani nell’ambiente scolastico ma l’alta diffusione di dispositivi mobili porta questa grave piaga sociale anche all’esterno delle scuole.
Attraverso l’apprendimento automatico, è possibile rilevare i modelli linguistici utilizzati dai bulli e dalle loro vittime e sviluppare regole per rilevare automaticamente i contenuti di cyberbullismo [1,2].
A livello di bullismo fisico, l’intelligenza artificiale può essere utilizzata per riconoscere comportamenti sospetti tramite l’utilizzo della biometria comportamentale [3] e della “crowd analysis” [4], cioè lo studio dei naturali movimenti di persone, gruppi di persone o oggetti.
Il progetto BullyBuster
Il progetto prevede lo sviluppo di un sistema in grado di determinare se in un dato luogo fisico (scuola/piazza o altri contesti), durante la comunicazione social oppure tramite smartphone si stanno compiendo azioni prepotenti e violente, minacce o ingiurie.
L’ “acchiappabulli” sarà in grado di segnalare se è in corso un atto bullistico ovunque esso sia compiuto, permetterà di controllare i toni e le azioni degli aggressori, proteggendo le vittime ed allertando le forze dell’ordine di un pericolo imminente.
La cooperazione sinergica delle quattro università coinvolte prevede l’utilizzo di diverse fonti di dati:
- un’analisi basata su video, tramite un processo di segmentazione e caratterizzazione della scena mediante descrittori strutturali temporali e spaziali, permetterà di rilevare specifiche azioni di bullismo sulla base dei movimenti della folla intorno alla vittima e, ove possibile, alla sua espressione facciale;
- un’analisi testuale durante le comunicazioni digitali nei social network permetterà, mediante l’individuazione di parole e frasi tipiche di molestie, oppressione e stalking informatici, di individuare alcuni stati di disagio connessi a bullismo o cyberbullismo, come ansia e depressione;
- un’analisi comportamentale mediante il rilevamento della dinamica della sequenza di tasti e l’analisi della pressione dei tasti o del touchscreen nei dispositivi elettronici (smartphone/tablet) sarà di supporto per evidenziare quanto più precocemente possibile il verificarsi di una condizione emotiva anomala, riconducibile ad un fenomeno di bullismo.
I modelli statistici e generativi alla base di questi strumenti sono ispirati da modelli di comportamento definiti degli psicologi del team. Il progetto è totalmente conforme con la normativa privacy e le modifiche introdotte con il GDPR grazie alla presenza nel team di ricercatori giuristi, che si occupano, inoltre, di indicare le conseguenze giuridiche dei comportamenti dei bulli e le possibili tutele per le vittime.
Un descrittore temporale per la detection di azioni violente
Nell’ambito del progetto, l’Unità di Cagliari ha sviluppato un prototipo per l’osservazione da videocamera di gruppi di soggetti non singolarmente identificabili, ma in grado di fornire sufficienti informazioni per segnalare, in base a modelli comportamentali opportunamente codificati, eventi “anomali” come episodi di violenza o panico[2].
L’obiettivo del nuovo descrittore, i cui dettagli sono stati pubblicati in [9], che si ispira all’algoritmo Local Binary Pattern monodimensionale (1D-LBP) [5], è quello di misurare, attraverso schemi appropriati, la velocità di formazione e dispersione di assembramenti nella folla. Tali schemi dipendono dal numero di gruppi osservati in una finestra temporale. Un’appropriata unità di misura, denominata “trit”, rappresenta tre possibili stati dinamici su un determinato frame: il numero dei gruppi aumenta, diminuisce o rimane inalterato (Figura 2).
La nostra ipotesi è che le brusche variazioni nel numero di persone che compone un gruppo siano riconducibili a un evento anomalo, che può essere di conseguenza rilevato traducendo tali variazioni in sequenze di stringhe basate sul trit temporale, che pertanto saranno significativamente diverse da quelle relative ad una situazione senza anomalie.
Figura 2: Fasi di un sistema di rilevazione di anomalie: (1) si seleziona un sottoinsieme di frame dal video in esame; (2) si estraggono caratteristiche di basso livello per ottenere una stima del numero di gruppi in ogni scena; (3) si assegnano i trit corrispondenti ai vari stati dinamici; (4) rilevazione delle anomalie attraverso una specifica soglia.
Per il conteggio dei gruppi sono stati confrontati 4 diversi metodi:
- Conteggio manuale come ground truth (MC);
- Clustering of Optical Flow (COF) [6];
- Cascade Detector (CD) [7];
- Blob Detector (BD).
Abbiamo quindi valutato gli istogrammi delle occorrenze dei codici trit. Al bin centrale dell’istogramma viene applicata una soglia rappresentativa dello stato di quiete, e funge da innesco per la rilevazione dell’anomalia.
La Tabella 1 riporta in sintesi i risultati sperimentali completi conseguiti sul dataset Motion Emotion [8], valutati in termini di precision, recall e F1 Score.
I parametri del sistema sono stati impostati utilizzando un’ottimizzazione sulla base della metrica F1 Score. L’ottimizzazione è stata eseguita sia in modo supervisionato (F1 Score massimizzato su tutti i video) sia con una convalida incrociata Leave-one-out (F1 Score massimizzato su N -1 video) e test sul video escluso.
Supervised | Leave-one-out | |||||
Precision | Recall | F1 | Precision | Recall | F1 | |
MC | 88.89% | 94.12% | 91.43% | 79.31% | 71.87% | 75.41% |
COF | 71.11% | 88.89% | 79.01% | 52.50% | 60.00% | 56.00% |
CD | 75.00% | 91.67% | 82.50% | 73.17% | 83.33% | 77.92% |
BD | 70.45% | 86.11% | 77.50% | 56.52% | 74.29% | 64.20% |
Tabella 1: Risultati sperimentali ottenuti su tutti i video del ME dataset, utilizzando differenti metodi per il conteggio dei gruppi.
È evidente dall’analisi dei risultati che il metodo scelto per il conteggio dei gruppi influisce direttamente sulle prestazioni del descrittore. Tra quelli esaminati, il più affidabile è il Cascade Detector che nel protocollo Leave-one-out raggiunge prestazioni di rilevamento migliori persino del conteggio manuale.
Inoltre, la differenza di prestazioni tra il protocollo supervisionato e quello Leave-one-out suggerisce che un’impostazione più accurata dei parametri consentirebbe un rilevamento più affidabile.
Casi particolari
Analizzeremo ora alcuni video del dataset utilizzato al fine di mostrare nel dettaglio il comportamento del descrittore proposto. Nei grafici seguenti, le linee verdi rappresentano le anomalie effettive, mentre le linee rosse le anomalie rilevate dal sistema. Se la linea rossa si trova in una zona verde chiaro, significa che l’anomalia è stata correttamente identificata.
Un primo esempio riguarda il video 009, dove è possibile osservare un caso di corretta rilevazione dell’anomalia con tutti i metodi di conteggio (Fig. 3). Il video è caratterizzato inizialmente da un flusso statico di individui, ovvero una folla strutturata, e di conseguenza un numero costante di gruppi. L’evento di panico genera un movimento della folla tale da essere identificato dai rilevatori di anomalie. Questo comportamento conferma esplicitamente le ipotesi alla base del nostro lavoro.
Figura 3: Alcuni frame e descrizione grafica del rilevamento per il video 009: esso contiene una situazione di panico che è stata correttamente identificata con tutti i metodi di conteggio esaminati.
D’altro canto, esistono delle situazioni in cui è particolarmente complicato distinguere dei veri eventi anomali da semplici cambiamenti nella composizione della folla. È il caso del video 023, riportato in Figura 4, caratterizzato da un gran numero di falsi allarmi. Ciò accade quando la folla non è ben strutturata e i piccoli cambiamenti nel numero di gruppo viene erroneamente interpretato dal sistema come molteplici anomalie. È possibile ridurre questo effetto agendo a livello di istogramma, evitando i picchi che rappresentano le piccole variazioni della folla.
Figura 4: Alcuni frame e descrizione grafica del rilevamento per il video 023: non sono presenti anomalie all’interno del video, ma sistema rileva comunque dei falsi allarmi.
Conclusioni
Questo lavoro rappresenta il nostro primo contributo alla lotta contro il bullismo. Ci siamo concentrati sullo sviluppo di un rilevatore di eventi anomali su piccole o grandi folle attraverso algoritmi di computer vision. Abbiamo confermato la nostra ipotesi, secondo la quale è possibile identificare le rapide variazioni dei gruppi in una scena, codificandole attraverso una nuova unità di misura chiamata “trit”. Sebbene siano necessari ulteriori studi per ridurre il numero di falsi allarmi in caso di cambiamenti lenti e controllati, il descrittore sviluppato è caratterizzato da un’elevata versatilità, ed è pertanto completamente adattabile a seconda del contesto reale o del tipo di anomalia da rilevare.
Bibliografia
[1] K. Reynolds, A. Kontostathis and L. Edwards, “Using Machine Learning to Detect Cyberbullying” 2011 10th International Conference on Machine Learning and Applications and Workshops, Honolulu, HI, 2011, pp. 241-244.
[2] K. Dinakar, R. Reichart, and H. Lieberman, “Modeling the Detection of Textual Cyberbullying” in Proc. IEEE International Fifth International AAAI Conference on Weblogs and Social Media (SWM’11), Barcelona, Spain, 2011.
[3] Weiming Hu, Tieniu Tan, Liang Wang and S. Maybank, “A survey on visual surveillance of object motion and behaviors,” in IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), vol. 34, no. 3, pp. 334-352, Aug. 2004.
[4] J. C. Silveira Jacques Junior, S. R. Musse and C. R. Jung, “Crowd Analysis Using Computer Vision Techniques,” in IEEE Signal Processing Magazine, vol. 27, no. 5, pp. 66-77, Sept. 2010.
[5] Chatlani, N., & Soraghan, J. J. (2010). Local binary patterns for 1-D signal processing. 95-99.18th European Signal Processing Conference (EUSIPCO-2010), Aalborg, Denmark.
[6] B. K. Horn and B. G. Schunck, “Determining optical flow,” Artificial intelligence, vol. 17, no. 1-3, pp. 185–203,1981.
[7] G. Bradski, “The OpenCV Library,” Dr. Dobb’s Journal of Software Tools, 2000.
[8] H. Rabiee, J. Haddadnia, H. Mousavi, M. Kalantarzadeh, M. Nabi, and V. Murino, “Novel dataset for fine-grained abnormal behavior understanding in crowd,” in 13th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), 2016, pp. 95-101.
[9] G. Orrù, D. Ghiani, M. Pintor, G.L. Marcialis, F. Roli, Detecting Anomalies from Video-Sequences: a Novel Descriptor, IEEE/IAPR 25th Int. Conf. on Pattern Recognition (ICPR 2021), Milano (Italy), 10-15th, Jan., 2021, https://arxiv.org/abs/2010.06407, DOI: 10.1109/ICPR48806.2021.9412855.