Considerazioni tecniche e istruzioni operative per risolvere i problemi Windows causati dal bug di Crowdstrike.
Cosa è accaduto?
Il 19 Luglio 2024 alle ore 04:09 UTC CrowdStrike rilascia un aggiornamento al suo prodotto di protezione degli endpoint (dispositivi). Questa nuova versione contiene però un bug software che genera nei sistemi Microsoft windows un crash del sistema e relativo blue screen (BSOD).
Sul blog ufficiale del produttore viene dichiarato che non si tratta di un attacco cyber e alle 05:29 UTC dello stesso giorno viene eseguita l’attività di fix.
Perché è bastata poco più di un’ora dal rilascio alla fix per generare un impatto globale? Le prime stime affermano che sono stati impattati circa l’1% dei sistemi windows presenti in tutto il mondo. Se pensiamo all’installato di Microsoft il numero è tutt’altro che piccolo.
Tecnicamente i sistemi che sono stati colpiti dall’aggiornamento sono tutti quelli che in quella fascia oraria hanno scaricato l’aggiornamento dal sito del produttore, in particolare parliamo della versione 7.11
Il metodo di deploy degli aggiornamenti e del relativo file di configurazione viene gestito in autonomia dal produttore senza che gli utilizzatori debbano o possano fare nulla.
Questa metodologia ci porta due punti vista differenti:
- I sistemi sono sempre aggiornati e quindi sempre protetti da minacce e attacchi complessi
- Un bug presente in tale software può compromettere un numero impressionante di dispositivi, come è accaduto in questo caso
L’errore di Crowdstrike è quello di rilasciare l’aggiornamento in modo massivo sottovalutando l’impatto che ha generato. Il punto su cui ragionare è che normalmente non si eseguono rilasci in produzione senza aver testato correttamente il software e in particolare è buona norma procedere a rilasciare in produzione in modo differito, ad esempio a gruppi di clienti o sistemi.
Analisi tecnica del bug
Come riporta Crowdstrike il problema ha impattato solo i sistemi Windows, in particolare il bug è legato ai Channel Files che sono presenti nella directory del prodotto:
C:\Windows\System32\drivers\CrowdStrike\
Ogni channel file ha un identificativo che inizia con “C-“ e quello che è stato impattato dal bug è stato il numero 291. Questo numero rimarrà sicuramente nella storia e nel ricordo di parecchi addetti ai lavori.
Il file termina con l’estensione SYS e non è un drivers del kernel di sistema operativo.
Con l’obiettivo di bloccare cyberattacchi che utilizzano i canali di comunicazione a basso livello, Crowdstrike ha rilasciato una modifica al suo sistema interno di monitoraggio generando però un system crash.
L’impatto di questa modifica è stato talmente ampio perché i sistemi affetti dal bug si sono bloccati senza più possibilità di ripartire.
Anche se non si tratta di un drivers del kernel windows, il software lavora a così basso livello da risultare parte integrante dei processi vitali del sistema e provocandone la “morte digitale”
Perché è necessario un intervento manuale per risolvere il problema?
In condizioni normali un bug rilasciato da un vendor che utilizza il metodo di deploy come quello di Crowdstrike viene risolto attraverso un ulteriore rilascio con le stesse modalità.
In questa situazione questo approccio non può essere portato a compimento perché i sistemi andando in crash non potevano più essere acceduti remotamente e quindi senza connessioni di rete.
L’accesso ai sistemi presenti in cloud o all’interno di infrastrutture virtuali può essere fatto attraverso le console di gestione del fornitore e quindi i tempi di ripartenza sono potenzialmente più veloci.
Per i dispositivi degli utenti (portatili o desktop) e per quelle applicazioni “speciali” (chioschi in aeroporto, computer presenti in aree condivise, sistemi installati all’interno di ambienti di produzione industriale) l’unico modo per risolvere il problema è accedere fisicamente e localmente al dispositivo.
Questo è il motivo per cui serviranno settimane per risolvere definitivamente il problema.
Sistemi impattati e sistemi non impattati
Dopo aver chiarito le modalità che hanno generato l’incidente è facile poter affermare che non sono stati impattati:
- Sistemi operativi non windows (Linux e Mac)
- Sistemi che erano spenti o non accedevano al sito del produttore nella fascia “incriminata”
I miei sistemi sono stati impattati?
CrowdStrike ha rilasciato un articolo contenti istruzioni operative per ricercare i sistemi impattati.
È necessario eseguire una query specifica sullo strumento di Advanced Event Search. Riportiamo uno screen riepilogativo
Se non si ha accesso allo strumento di Advanced Query è possibile identificare il problema attraverso una semplice analisi del channel file C-00000291*.sys
- Se il timestamp è 2024-07-19 0527 UTC o successivo siamo di fronte alla versione senza bug
- Che il timestemp è 2024-07-19 0409 UTC abbiamo la versione contente il bug
Istruzioni operative per ripartire
Le prime istruzioni rilasciate da Crowdstrike erano le seguenti:
Operativamente è necessario eseguire un avvio del sistema in modalità Safe Mode o Windows Recovery e cancellare il channel file incriminato.
Successivamente Microsoft e Crowdstrike hanno rilasciato un tool automatico per semplificare le attività di recovery.
Il link alla procedura è il seguente https://www.crowdstrike.com/wp-content/uploads/2024/07/Using-the-Microsoft-Recovery-Tool-for-Automated-Host-Remediation.pdf
Il tool permette di scaricare una utility rilasciata da Microsoft (https://go.microsoft.com/fwlink/?linkid=2280386) che permette di creare un disco di boot per poter velocizzare la cancellazione del file che rimane ad oggi l’unico metodo che permette di risolvere il problema.
Visto l’impatto globale e reputazionale del problema sono nate diverse guide dei cloud provider utili per velocizzare le attività di risoluzione.
AWS: https://repost.aws/en/knowledge-center/ec2-instance-crowdstrike-agent
Azure: https://azure.status.microsoft/en-gb/status
Considerazioni
Se si è stati impattati da questo bug sono necessarie attività manuali per poter ripartire. Le competenze tecniche necessarie per non generare ulteriori impatti non sono da sottovalutare ed è importate affidarsi a fornitori affidabili.
Per ogni problema o per istruzioni aggiornate riporto il link al sito di Crowdstrike: https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/