Capire i social network: high clustering, gradi di separazione, invarianza di scala

Cos’è tecnicamente un social network, come si riconosce un utente in grado di influenzare gli altri e in che modo, studiandoli, si può capire come si formano, come si diffondono le informazioni, come si propagano le epidemie o i malware, la resistenza ai guasti, come evolve il web e a predire l’emergenza di nuovi fenomeni

Un social network è tecnicamente un grafo che rappresenta relazioni tra entità indipendenti. Un grafo è un insieme di nodi (detti anche vertici) V, collegati tra loro da un insieme di archi (spigoli, collegamenti o archi non orientati) E.

Alcuni esempi di network molto studiati in letteratura sono i seguenti:

insieme degli attori che hanno recitato nello stesso film (Kevin Bacon Graph)
insieme di amici (es. Facebook)
insieme di scienziati che hanno collaborato agli stessi progetti/articoli
insieme di blog con link reciproci
insieme di terroristi che hanno partecipato all’attentato del 11/9 e che hanno vissuto/studiato/viaggiato insieme
insieme di newsgroup in cui è postata la stessa email
insieme di domini internet collegati tra loro con regole di routing
insieme di pagine web collegate da hyperlink
insieme delle linee elettriche degli Stati Uniti occidentali e delle stazioni, dei trasformatori, dei generatori ecc. (Western States Power Grid)
la rete neurale composta dai neuroni e dalle relative sinapsi del verme Caenorhabditis Elegans

Altre reti possono essere visualizzate qui.

Lo studio dei social network ci aiuta a capire come si formano, come si diffondono le informazioni, come si propagano le epidemie o i malware, la resistenza ai guasti (nel caso di infrastrutture critiche), come evolve il web e a predire l’emergenza di nuovi fenomeni.

Indice degli argomenti

Le tre caratteristiche principali dei sociale network

I social network presentano tre caratteristiche principali:

small-world effect (“sei gradi di separazione”)
high clustering
invarianza di scala

Da un punto di vista prettamente topologico un social network è una via di mezzo tra una struttura rigida (reticolo), in cui i legami tra le persone sono fissati, e una struttura completamente random, in cui i rapporti sono puramente casuali. In effetti ogni persona tende a raccogliere attorno a sé un insieme di altre persone (cluster) con cui condivide qualcosa (un interesse, un determinato luogo, come un ufficio, una chiesa o un negozio, un legame di parentela ecc.). Questi cluster sono caratterizzati da una distanza di relazione interpersonale relativamente piccola. La cosa interessante però è che una persona mediamente fa parte di più cluster disgiunti tra loro facendo sì quindi che parti del “mondo” che in condizioni normali sarebbero separate si avvicinino.

Questo è il cosiddetto small-world effect, detto anche “sei gradi di separazione”. Quanto abbiamo appena detto fa sì che il mondo sia più connesso di quanto sarebbe senza le relazioni interpersonali, abbrevia le distanze tra le persone e, ovviamente, ha un effetto devastante sulla propagazione di epidemie o delle informazioni. Tanto per restare in tema di infezioni, potremmo fare il caso dell’AIDS. Un reticolo corrisponde al caso di coppie monogame: ogni persona ha rapporti sessuali solo con un’altra persona. E’ chiaro che in una situazione del genere se una persona si ammala, al massimo può infettare il proprio partner e l’epidemia si propaga con molta difficoltà. La situazione random è quella della massima promiscuità sessuale: tutti hanno rapporti con tutti. Il caso “social network” corrisponde a un insieme di coppie, tendenzialmente monogame, ma con un certo numero di “relazioni extraconiugali”. Questo fa sì che se un individuo contrae il virus non infetta solo il proprio partner ma lo propaga anche alle altre coppie, sfruttando proprio il tramite dei legami extraconiugali.

Quanto è connessa la nostra rete

Da un punto di vista matematico, per capire quanto “connessa” è la nostra rete, cioè quanto si differenzia (usando una variabile 0<p<1) da un reticolo (p=0) o da una rete completamente casuale (p=1), è opportuno definire due grandezze e cioè la characteristic path Length L(p) e il coefficiente di clustering C(p), detto anche coefficiente di transitività. La prima misura la separazione tipica di due vertici della rete (distanza media tra due utenti in un social network) mentre la seconda, che è un numero compreso tra 0 e 1, misura la probabilità che due vertici, connessi ad un vertice comune, siano anche connessi tra loro ed è quindi legata al livello di addensamento medio dei vertici e quindi alla “robustezza” della rete. Si parla di “robustezza” perché misura quanto un grafo continua a restare connesso anche quando vengano rimossi alcuni dei vertici. Un alto valore del coefficiente C indica che sono presenti molte connessioni tra nodi vicini. Al limite, per una rete totalmente connessa C è pari a uno.

Indichiamo con k il numero di connessioni uscenti da un vertice (cioè il numero di relazioni di un utente con altri utenti) e con n il numero dei vertici (cioè il numero di utenti).

Le reti di nostro interesse hanno molti vertici (cioè molti utenti) con connessioni sparse, in numero tale, però, da non rendere il grafo disconnesso (cioè non esistono sottografi staccati dal resto). Come casi estremi si trova così che

p -> 0 (reticolo) L ~ n/2k » 1 (lunghezze alte, cioè “large world”) e C ~ ¾ (alto clustering).

Il risultato è atteso perché, in questa situazione ci sono connessioni esclusivamente locali, quindi affinché due nodi distanti possano comunicare tra loro occorre passare per un gran numero di nodi intermedi e L è tanto più grande quanto n è grande. D’altra parte, anche C è grande perché misura il livello di coesione a livello locale.

p -> 1 (random) L ~ ln(n)/ln(k) (small world) e C ~ k/n « 1 (basso clustering)

In questo caso, visto che un vertice può essere collegato con buona probabilità anche a vertici distanti, L aumenta con n più lentamente. D’altra parte il coefficiente C peggiora visto che ora sono possibili anche collegamenti tra vertici distanti a discapito delle proprietà locali.

L’andamento di L(p) e C(p) mostra che esiste un grande intervallo di valori di p (caso social network) dove L è piccolo e C è grande e quindi small world con alto clustering. E’ stato mostrato in letteratura che questo comportamento è tipico di molte attività umane oltre ai social network.

I sei gradi di separazione

Il comportamento dello small world è bene esemplificato dai “sei gradi di separazione”. Questo termine è stato coniato dallo psicologo sociale Stanley Milgram. Nel 1967 fece un esperimento per provare la teoria del mondo piccolo. Egli selezionò un gruppo casuale di americani che vivevano nel Midwest e assegnò a ciascuno il compito di inviare una lettera ad un individuo sconosciuto che viveva in Massachusetts di cui sapeva poche notizie, tra cui il nome, la sua attività e la zona in cui risiedeva ma non l’indirizzo esatto. Ognuno doveva recapitare la lettera a un proprio contatto diretto (amico o parente) e ciascuno di questi a sua volta, con l’obiettivo di farla arrivare al destinatario finale nel minor tempo possibile.

Il risultato sconvolgente fu che qualunque fosse il percorso seguito occorrevano in media dai cinque ai sette passaggi intermedi per raggiungere l’obiettivo. Tale esperimento è stato ripetuto in forme diverse e in diverse reti sociali portando allo stesso risultato. Esso dimostra l’esistenza nei social network (termine che usiamo per intendere una qualunque rete sociale più che la loro controparte informatica) di traiettorie brevi (short path) tra due punti qualsiasi. Inoltre dimostra anche che le persone, anche in mancanza di una mappa globale, sanno comunque usare la propria mappa locale per trovare collettivamente questi short path. Questo ultimo fatto non è a priori evidente e riposa sul fatto che in una rete sociale ogni individuo ha una conoscenza sufficiente delle sottostrutture (cluster), come il suo gruppo di amici del liceo, il gruppo dei colleghi di lavoro, il gruppo degli appassionati di fotografia e così via, da permettergli di portare a termine compiti globali. Per capire quanto queste sottostrutture siano importanti basta pensare a una variante dell’esperimento in cui ognuno di noi riceva un numero identificativo e ci venga chiesto di consegnare la lettera all’utente di numero 14527. Con un numero di informazioni così esiguo, l’unica possibilità per far arrivare la lettera a destinazione è quello di procedere in modo totalmente casuale con un numero di step intermedi enorme.

L’high clustering

Un altro modo, topologico, per esprimere le proprietà dei social network è quello di dire che essi abbondano di triangoli, cioè di gruppi di tre persone che si conoscono tra loro. In effetti un social network risulta dalla combinazione di due effetti:

l’omofilia che consiste nella tendenza a legarsi con persone che condividono determinati aspetti o interessi con noi e che porta alla formazione di molte strutture triangolari
i legami deboli (weak ties) che portano l’individuo a rompere i confini di un determinato gruppo per legarsi a individui “lontani” che non verrebbero altrimenti raggiunti

La presenza di triangoli fa sì che la distanza di diffusione delle informazioni sia minore di quanto effettivamente potrebbe essere (high clustering). Supponiamo ad esempio che ogni utente abbia in media 100 amici. Al secondo step l’informazione avrà raggiunto 100 x 100 = 10.000 utenti. Al terzo step in teoria avrà raggiunto un milione di utenti. Il fatto è però che questi non sono tutti utenti diversi proprio per l’esistenza dei triangoli e cioè del fatto che l’amico di un amico (=2 livelli di separazione) può già essere nostro amico = 1 livello di separazione).

E’ interessante osservare come in uno studio sia emerso che, nel caso di Facebook sono sufficienti solo 4 step per raggiungere qualsiasi utente a partire da un utente dato.

L’invarianza di scala

Questa sembra essere una proprietà caratteristica di reti che crescono nel tempo ma in modo che i nuovi nodi via via aggiunti non si collocano in modo casuale ma si aggregano preferenzialmente intorno a nodi già con un grosso numero di connessioni. Questo significa in pratica che chi è ricco tende a diventare più ricco, gli attori noti tendono ad ottenere più parti, i lavori scientifici molto citati tendono a ricevere ancora più citazioni e così via.

Nel caso dei social network questo significa un grosso numero di utenti con poche connessioni e un piccolo numero di utenti “hub” con un elevato numero di connessioni. Tali reti sono estremamente resistenti a problemi distribuiti, come la scomparsa di nodi in posizioni casuali, ma anche estremamente sensibili ad “attacchi mirati” nei confronti degli hub.

Nei modelli di propagazione delle informazioni bisogna tenere di conto del fatto che non tutti i nodi della rete hanno lo stesso peso, nel senso che ci possono essere utenti che hanno un’influenza maggiore. Questo può far sì che l’informazione, per andare da un utente A a un utente B, segua dei cammini preferenziali.

L’influenza dei “poster”

L’influenza sociale di una persona è definita come la sua capacità di alterare o determinare il comportamento di altri individui, relativamente a un certo ambito o anche in un determinato scenario. In ambito marketing, localizzare gli influencer e costruire relazioni con loro è di importanza cruciale perché loro costruiranno relazioni al posto nostro.

Secondo gli specialisti di Social Network, l’influenza di un “poster”, cioè di un utente che effettua un post, è misurabile tramite tre parametri:

il numero (A) di utenti a lui immediatamente collegati, che rappresenta la dimensione della sua audience
il numero (RR) di risposte ricevute a un suo post o il numero (RU) di utenti che rispondono a un suo post. La seconda misura è in effetti più precisa perché ci potrebbero essere utenti molto loquaci che generano un sacco di risposte
il numero (RF) di volte che un suo post viene “girato” (forward) a altri utenti

In particolare il terzo determina la distanza di propagazione di un post e quindi la sua capacità di allargare l’audience, a partire da quella primaria.

Ci sono evidenze che queste tre misure siano sostanzialmente diverse tra loro e che, anzi, possano servire a classificare in un certo senso l’utente. Ad esempio, utenti con un alto numero di forward sono tipicamente generatori o aggregatori di news, la cui influenza è abbastanza costante nel tempo, mentre utenti con un grosso numero di risposte sono tipicamente personaggi famosi.

Come si riconosce un influencer

Detto questo, come è possibile determinare quali utenti di un social network hanno la maggiore influenza?

Esistono vari indici che sono stati costruiti a questo proposito. Essi compendiano tutte le informazioni rilevanti in una sola misura e sono quindi di pratica e veloce applicabilità.

L’indicatore più semplice è il Followers to Following Ratio.

Esso è il rapporto tra il numero di utenti che ci seguono (followers) e il numero degli utenti che seguiamo (following). Più è alto e maggiore è la nostra capacità di influencer. Ad esempio, il numero di follower tipico di un’account Instagram a uso personale, è di circa 150 ed è composto sostanzialmente dalle persone con cui abbiamo rapporti diretti, ad es. familiari, amici ecc.

Il numero di followers necessario per essere considerato influencer dagli esperti è di circa 15000. Tra i due estremi ci sono varie possibilità:

<0.5 Spammer: utenti particolarmente inesperti con gli strumenti di automazione di Instagram (es. SocialDrift, ViralUpgrade, Combin o Kickstagram, tanto per citare i più diffusi) e che fanno spam verso i follower nella speranza di trovarne di nuovi
0.5-1 Suspicious: Utenti che fanno un uso limitato degli strumenti di automazione ma che seguono le persone sbagliate o che diffondono contenuti di bassa qualità con nessun ritorno in termini di nuovi follower
1-2 Normal: Utenti che fanno uso con qualche successo degli strumenti di automazione ma senza una strategia in mente.
2-10 Micro Influencer: Utenti che padroneggiano gli strumenti di automazione o che diffondono contenuti di qualità elevata
10+ Influencer: sono probabilmente delle micro-celebrità o stelle nascenti che di solito sono popolari anche su altri social media channels.

La cosa interessante è che esiste anche un calcolatore in grado di stimare la rendita di un account Instagram sulla base del Followers to Following Ratio.

Come abbiamo visto dalle definizioni sopra, una delle caratteristiche principali degli influencer è la capacità di interagire con successo in vari social network e, in effetti, indici più complessi vanno ad analizzare anche questo aspetto.

Usando, invece, i metodi dell’analisi topologica, il problema di localizzare gli influencer è ridotto a localizzare i punti di maggior aggregazione. Questo si fa con l’analisi della Centralità. Anche in questo caso è possibile definire indici che misureranno la capacità di aggregazione di un determinato nodo. L’indice più semplice è basato sulla misura degli archi uscenti da un determinato nodo. Un altro è basato sulla lunghezza del cammino medio necessario per raggiungere da un nodo tutti gli altri nodi. In questo caso, un nodo è tanto più centrale quanto più è vicino agli altri nodi del grafo. Un altro indicatore più complesso misura, invece, quante volte un determinato nodo è attraversato nel calcolo del cammino più corto tra due nodi qualsiasi del grafo. Nel caso di Google Pagerank invece si assegna un punteggio a ciascun nodo e tale punteggio è tanto più alto quanto più si è connessi a nodi “importanti”. Ciò vuol dire ad esempio che essere connessi a un influencer aiuta anche noi nella ricerca di potenziali follower e diventare influencer a nostra volta, nel classico senso di “vivere di luce riflessa”.

Nel prossimo articolo studieremo la propagazione virale delle notizie nei social network e i modelli epidemici.