Blackout dei sistemi informatici.
Ce lo aspettavamo generato da un attacco sistemico di scala mondiale, con un avversario in stile Spectre dei film di James Bond che dal divano di casa decideva cosa spegnere a Pechino o a Roma, a Luanda o a Vientiane. Magari al soldo di Russia o Cina, come temevano anche i servizi Usa.
Invece a quanto pare siamo riusciti a generare un crash globale dei computer grazie a un errore umano dei tecnici di Crowdstrike – una società di cybersicurezza, paradosso notato da molti – per i sistemi Windows.
Eppure il fatto che un errore umano di una singola società abbia potuto causare tanti problemi a cascata in tutto il mondo rivela un problema più profondo, insito nell’attuale ecosistema digitale. E attori nazionali avversari – in contesto di guerra ibrida o tradizionale – potrebbero sfruttarli per causare danni anche più gravi di quelli vissuti.
C’è molto da imparare da quest’evento, sui limiti dei processi umani di gestione della patch e, in generale, sull’assenza di una cyber resilienza garantita nei sistemi critici.
Cosa ha causato il blackout dei sistemi informatici di tutto il mondo
I sistemi informatici sono andati in tilt a causa di un aggiornamento mandato da Crowstrike ai propri clienti aziendali che integrano la sua soluzione di sicurezza Falcon, nei sistemi Windows.
L’update non sarebbe stato testato in modo adeguato e ha causato crash dei sistemi. Crowdstrike ha preso la responsabilità dell’accaduto e ha preparato un fix.
Da notare che Microsoft è stato accusata erroneamente da molti nei giorni scorsi, ma è stato l’update di Crowdstrike a causare tutto. Il suo software rimpiazza infatti il Windows Defender di Microsoft, che Crowdstrike sul proprio sito accusa di non essere abbastanza valido.
Si stanno aggiustando i sistemi per completare il recovery delle funzionalità complete, ma siamo ormai in grado di fare i primi bilanci.
I settori più colpiti
In un post sul blog di sabato, Microsoft ha dichiarato che sono stati colpiti 8,5 milioni di computer Windows, ovvero meno dell’1% della sua presenza globale. Questo numero è stato sufficiente per mettere in crisi le attività di importanti aziende in settori quali la sanità, i media e i ristoranti.
I settori che più sono stati danneggiati sono quelli che hanno l’intera catena del valore o una parte di essa interamente virtuale: le banche e i mercati finanziari, da un lato, il settore del trasporto aereo dall’altro.
I primi sono interamente immateriali, completamente virtualizzati da un regime di attività digitalizzato al 100%: non potevano che essere bloccati, e le banche hanno sicuramente gestito il problema in prontezza considerati gli obblighi imposti dalle direttive sovranazionali di settore, emanate dalle banche centrali, per la business continuity e le comunicazioni di incidente.
L’impatto del blackout sul trasporto aereo
Il trasporto aereo ha tutta una parte della catena del valore interamente digitale: ci riferiamo alle procedure di accettazione del passeggero, sia con i check in online che con i check in aeroportuali, e alle procedure di assegnazione delle slot di decollo e rotta degli aeromobili, nonché a tutte le procedure preventive di controllo e gestione delle manutenzioni e delle operazioni di terra. Tutte attività interamente digitalizzate, improponibili per un passaggio al cartaceo che abbia caratteristiche cdi immediatezza e completezza.
Al di là delle linee aeree che hanno sospeso i check in online, moltissimi voli sono stati ritardati o completamente cancellati a causa della impossibilità di gestire le operazioni di terra per le assegnazioni degli slot e per il controllo del traffico aereo. Peraltro, in condizioni di malfunzionamento, nessun operatore si prenderebbe la responsabilità di far volare comunque un velivolo.
L’impatto tecnico: il crash nel kernel
Il bug di CrowdStrike è stato così devastante perché il suo software di sicurezza, chiamato Falcon, viene eseguito al livello più centrale di Windows, il kernel, quindi quando un aggiornamento di Falcon ne ha causato il blocco, ha messo fuori uso anche il cervello del sistema operativo. A quel punto è comparsa la schermata blu della morte.
Nel 2020, Apple ha comunicato agli sviluppatori che il suo sistema operativo MacOS non avrebbe più concesso loro l’accesso a livello di kernel. Su Apple quindi un problema del genere non è possibile.
Poter accedere al kernel dà vantaggi agli sviluppatori, ma espone anche a rischi come questo.
Perché Microsoft dà accesso al kernel
In ogni caso, un portavoce di Microsoft ha dichiarato al Wall street journal che non può legalmente proteggere il suo sistema operativo nello stesso modo in cui lo fa Apple, a causa di un accordo raggiunto con la Commissione Europea in seguito a un reclamo. Nel 2009, Microsoft ha deciso di concedere ai produttori di software di sicurezza lo stesso livello di accesso a Windows che ottiene Microsoft.
Cosa impariamo da questo evento
A molti l’evento è servito come promemoria sia delle strette relazioni tra la nostra vita e il digitale sia di come quest’universo immateriale sia fatto di tante parti interconnesse che si muovono senza una guida centrale. Ed è questo il problema vero.
Supply chain vulnerabile e punto singolo di failure
Il dramma della supply chain vulnerabile, insomma, esposto nella massima misura con gli update di un qualsiasi programma Windows di terze parti.
Ed è un problema aggravato dal forte ruolo dei sistemi Windows in aziende di vario tipo, in tutto il mondo. Sono quasi un singolo punto di fallimento per tante infrastrutture critiche.
Abbiamo imparato anche da questo evento che il mondo deve trovare un modo per migliorare la cyber resilienza dei sistemi critici. Innanzi tutto, che il vecchio ritornello di “non toccare ciò che funziona”, seppur inapplicabile all’informatica contemporanea, ha una radice di saggezza.
L’adattatività impone di essere “sempre pronti” a gestire qualsiasi situazione con grande apertura alla novità e all’improvvisazione, ma la conservativa regola della security storica ci ricorda di non procedere nelle innovazioni a “passi lunghi e ben distesi” senza aver prima testato e controllato che le innovazioni stesse funzionino e siano sotto controllo.
Infrastrutture critiche esposte anche ad attori statali malevoli
Ma questo è stato un errore fatto in buona fede. Con l’attuale “catena di comando” di un update Windows, che sarebbe successo se un Paese nemico fosse stato in grado di inserire un ransomware o uno spysoftware in un update di un’app come quello di Falcon, con accesso al kernel?
Adesso Russia e Cina – stanno commentando molti ora – stanno prendendo nota su un nuovo possibile moto di distruggere o infiltrare le nostre infrastrutture critiche, sempre sfruttando il problema della supply chain, un po’ come avvenuto con Solar Winds.
Soluzioni?
Che fare?
E’ indubbio e inevitabile che le infrastrutture critiche abbiano una dipendenza immediata non solo dall’energia elettrica e dalla connettività, ma anche dai sistemi informatici, seppur in modi diversi.
Sarà sempre più così man mano che città e infrastrutture diventano più digitali e interconnesse, per aumentare efficienza e sostenibilità (anche alla luce della necessaria transizione energetica).
I processi alla base della manutenzione digitale di tutto questo, almeno a livello di supply chain, sono ancora immaturi. Nel senso che non sono robusti abbastanza per prevenire un disastro evitabile.
Troppi single point of failure, troppe parti che lavorano a livelli profondo in assenza di best practice che siano incardinate in processi e regole precise.
L’ecosistema del digitale – in primis regolatori, grandi e piccole società tecnologiche – farebbe bene a studiare a fondo questo evento per trovare metodi utili a ridurre il rischio che si ripeta.