Il down di Facebook/Whatsapp dovuto a due grandi errori: una lezione per tutti

Quelle sei ore di downtime causate da almeno due errori, uno classico e uno assolutamente incredibile. Il tutto a ricordarci che la dipendenza da un piccolo numero di servizi e piattaforme digitali, gestiti peraltro da un’unica mega-azienda, è un rischio molto grave

Così è successo: l’Armageddon dei social è finalmente accaduto il 4 ottobre scorso, con un blocco totale di Facebook, Messenger, Whatsapp e Instagram durato quasi mezza giornata, blocco che ha lasciato privo di strumenti di comunicazione familiari e di uso comune qualcosa dell’ordine di svariati miliardi di persone.

Indice degli argomenti

La portata del down di Facebook/Whatsapp

Qualche osservazione, per capire la portata dell’evento, è utile.

Innanzitutto, non è esattamente vero che qualche miliardo di persone siano rimaste prive di strumenti di comunicazione digitale: infatti, per avere una persona fra i propri contatti WhatsApp tipicamente bisogna avere il numero di telefono, per cui si poteva perlomeno sempre inviare il vecchio SMS (tra parentesi: quanti ogni tanto si chiedono perché le banche continuano a mandare avvisi via SMS invece che via WhatsApp? forse ora lo hanno capito). E chiunque poteva installarsi una applicazione della concorrenza (Telegram, Signal, WeChat, Kakao Talk, financo Skype!) ed usare quello, caricando i contatti dalla rubrica (e di nuovo, se il numero del vostro corrispondente è su WhatsApp ce l’avete in rubrica). Forse installarsi una nuova app, molto simile a WhatsApp, è considerato da nerd? Beh siamo messi male allora. Non è più difficile che installare l’ultima versione di Candy Crush.

Il problema di Facebook è che cresce fuori controllo: come risolvere

Nel grande Sud del mondo, dove Facebook regge servizi essenziali ed è quasi sinonimo di internet, è andata peggio. In Messico, i politici sono stati tagliati fuori dai loro elettori. In Turchia e in Kenya, i negozianti non potevano vendere la loro merce. E in Colombia, un’organizzazione no-profit che usa WhatsApp per collegare le vittime di violenza di genere ai servizi salvavita ha trovato il suo lavoro compromesso.

D’altra parte, a rendere l’evento epocale, c’è la portata della disconnessione: non è stato un semplice malfunzionamento di alcuni siti, ma per alcune ore i siti ed i servizi online più frequentati del pianeta sono stati letteralmente cancellati dalla rete, tant’è che cercando il dominio facebook.com sul sito di ricerca di informazioni sui domini domaintools.com ci si ritrovava di fronte alla schermata seguente: “facebook.com is for sale!”.

facebook.com in vendita!

Facebook e compagnia – tutti servizi di proprietà di Facebook – si erano di fatto deplatformed, da soli!

Cos’è successo a Facebook: l’analisi tecnica

Ma cos’era successo? Forse l’hack del secolo? Nemmeno lontanamente. A quanto pare, la complessità di una infrastruttura cresciuta nel tempo fino a servire miliardi di persone – che sono tante! – si è coniugata con un almeno due errori, uno classico che magari molti di noi – indubbiamente i più nerd – avranno qualche volta fatto, ed uno assolutamente incredibile a parere di chi scrive.

Due grandi errori

Il primo: è stato inviato un aggiornamento della configurazione dei router – e servizi di questa scala non hanno un router che li collega ad un backbone: sono servizi che per gestire miliardi di utenti hanno una complessità nella struttura delle loro reti da paura e quindi certamente tanti router in tanti posti diversi – che andava a toccare un protocollo che, di fatto, costituisce uno di quegli angoli oscuri della Terra a cui Marlow doveva pensare nell’incipit di Heart of Darkness di Joseph Conrad: il famigerato BGP, Boundary Gateway Protocol, che di fatto è quella cosa che fa di Internet una “Inter”-net, che realizza la apparente magia per cui un pacchetto spedito da un PC di un Internet Café in Indonesia può raggiungere rapidamente un sito negli USA o in Germania o in Italia. Lungi da me voler spiegare cos’è in dettaglio e come funziona. Bene, la configurazione era sbagliata: può capitare a tutti di configurare male un router. Ma di configurarli male tutti, in un colpo solo, è diabolico. Il risultato di questo errore di configurazione è stato che i name server – quei computer che si occupano di tradurre i nomi che usiamo normalmente, tipo facebook.com, in indirizzi numerici del protocollo IP, e che in realtà fanno anche un sacco di altre cose utili, sono diventati inaccessibili, insieme al resto di tutta l’infrastruttura. Un buco nero.

Ma il tocco di vera malvagia eleganza è stato il secondo errore. Non è colpa dell’IoT: intendiamoci, anche la compagnia elettrica di Borgo Colle Fegato ha i lettori di badge collegati alla rete locale, noi abbiamo all’Università addirittura i termoscanner per il COVID collegati alla rete locale. Ed è assolutamente normale che vengano usati nomi a dominio, e non numerelli, per indicare i componenti della rete locale – inclusi gli oggetti IoT. Il problema è che in qualsiasi azienda, il dominio interno, utilizzato nella rete locale, non è lo stesso di quello utilizzato nella rete esterna, dei servizi al pubblico! E per quale ragione? Esattamente per questa ragione! La rete locale deve mantenere la propria funzionalità anche se viene disconnessa da Internet, per qualsiasi ragione. Bene, pare che sia esattamente quello che a Facebook non hanno fatto. Il risultato è stato non solo la paralisi totale dei servizi al pubblico di Facebook (il social network, le applicazioni di messaggistica e l’applicazione di condivisione di foto), ma anche la paralisi dei servizi interni, inclusi i lettori di badge che permettono ai dipendenti di entrare e muoversi negli edifici aziendali.

E cosa fanno gli utenti quando non riescono a collegarsi al loro servizio on line preferito? Provano e riprovano, creando una spike di richieste ai server DNS in giro per il mondo e rallentando tutta Internet. Dopotutto si tratta di miliardi di utenti.

Il picco di richieste al DNS server di Cloudflare, da https://blog.cloudflare.com/october-2021-facebook-outage/

Facebook: colpa degli ingegneri

Facebook in un post ha spiegato cos’è successo. Cercando di ottenere una lettura della capacità di rete di Facebook, gli ingegneri hanno emesso un comando di rete che inavvertitamente ha tirato tutti i centri dati di Facebook fuori dalla rete della società. Questo ha portato ad una cascata di guasti che ha tolto tutti gli asset Facebook da internet.

Una volta che i data center erano offline, i server che utilizzavano il Domain Name System, o DNS, per dirigere il traffico internet si sono rimossi da internet. “Impossibile per il resto di Internet trovare i nostri server”, si legge nel post.

Facebook ha un network di back up out-of-band e quindi al riparo da questi errori; che però non ha funzionato. L’azienda non ha spiegato perché.

I cambiamenti DNS hanno anche disabilitato gli strumenti interni che avrebbero permesso agli ingegneri di Facebook di ripristinare il servizio in remoto, costringendo il personale tecnico a guidare verso i centri dati e riavviare i sistemi da lì.

“Difficile accedere ai datacenter. E una volta dentro, l’hardware e i router sono progettati per essere difficili da modificare anche quando si ha accesso fisico”, ha detto il signor Janardhan. “Quindi c’è voluto del tempo in più per attivare i protocolli di accesso sicuro necessari per portare le persone sul posto e in grado di lavorare sui server”.

Lezioni da apprendere

Ma da questa vicenda bisogna trarre un paio di lezioni, ovviamente non solo tecniche (quelle strettamente tecniche non ci concernono ora in questa sede).

La prima è che il folklore su Internet che è stata progettata per resistere alla guerra termonucleare è, appunto, folklore. A meno che non si pensi – ed è certamente possibile – che la stupidità umana non possa causare più danni della guerra termonucleare.

La seconda, e che ci riguarda molto da vicino, è che la dipendenza da un piccolo numero di servizi e piattaforme digitali, gestiti peraltro da un’unica mega-azienda, è un rischio molto grave, ed è giunto il momento di affrontare il problema. Abbiamo lasciato crescere una famiglia di servizi on line fino a diventare qualcosa di mostruosamente potente, tanto da far dire ad Hillary Clinton che parlando con i dirigenti dell’azienda si ha la sensazione di parlare con una potenza straniera. È ora che chi ha il potere per farlo prenda delle misure concrete.