I data center stanno divenendo infrastrutture critiche per il funzionamento della nostra società ed elemento fondante per la realizzazione di servizi digitali.
Queste infrastrutture non sono più ormai da tempo sale contenenti computer, ma veri e propri sistemi autonomi con interessanti sfide dovute alla concentrazione di ingenti risorse di corrente in spazi circoscritti.
Vediamo quali sono gli elementi che ne stanno condizionando l’organizzazione, ponendo nuove sfide e rendendo obsolete le scelte architetturali fatte pochi anni fa.
Evoluzione dei data center
I server richiedono sempre più corrente per poter operare, a partire dai processori che continuano a crescere nell’assorbimento. Come si può vedere nel grafico sottostante l’assorbimento in Watt è decuplicato nel corso di 15 anni circa chiedendo alimentatori sempre più grossi sui server.
L’assorbimento in un server è correlato alla dissipazione termica e più potenza viene assorbita più calore viene generato, aumentando di conseguenza la richiesta di sistemi di raffreddamento per drenare il calore generato ed evitare un surriscaldamento dell’intero apparato. Il Thermal Design Power (TDP) è il parametro che indica la quantità di calore dissipato da un chip e nei processori di fascia alta per server ha superato i 200W (il che trasforma un server con 4 CPU in una stufetta a 800W quando a pieno carico).
La progressiva adozione di GPU nei server per eseguire calcoli scientifici, e più recentemente algoritmi di intelligenza artificiale, ha aggravato il problema introducendo addizionali 250W da dissipare (per una nVidia Volta V100 che assorbe 300W). Considerato che un server in una configurazione tipica ospita 2 CPU e 4GPU il calore da dissipare può raggiungere 1.5KW (e i server spesso hanno quindi alimentatori da 2KW) solo considerando il contributo dei processori e delle GPU.
Gli elementi del data center
Un data center alla fine degli anni ‘90 era un locale tecnico in cui si mettevano degli armadi (rack) e tipicamente un condizionatore a parete per immettere aria fredda nella sala. Man mano che i server sono cresciuti si è reso necessario introdurre soluzioni più strutturate per gestire gli elementi essenziali del data center:
- Raffreddamento
- Potenza elettrica
La potenza elettrica
La potenza elettrica è un elemento essenziale poiché non è sempre possibile avere linee di potenza adeguata dato l’aumento dei consumi dei singoli server, e spesso un data center fatica a crescere proprio a causa della difficoltà di reperire linee elettriche adeguate (e possibilmente che seguano percorsi differenti per assicurare la continuità di alimentazione).
Per avere un’idea della concentrazione della potenza necessaria, si usa spesso la potenza disponibile per rack nel data center. I design a inizio 2000 assumevano 3-5KW per rack, oggi in molti casi si usano 8KW ma sempre più spesso è necessario avere design che prevedano almeno 15KW per rack, anche se il nuovo supercomputer HPC5 nel Green Data Center di Eni annunciato recentemente ha un design che prevede più 40KW per rack (cioè più della corrente che alimenta 10 unità abitative). I rack standard fanno uso tipicamente di 42 rack unit (ovverosia possono ospitare fino a 42 server ciascuno di 1U), e nel caso di HPC5 sono stati impiegati server C4140 di Dell Technologies che assorbono 2KW per singola unità. Con questa densità di potenza i design con 8KW per rack rischiano di sprecare lo spazio a disposizione poiché la potenza non è sufficiente ad alimentare più di qualche server.
Con queste potenze in gioco ormai è normale che un DC abbia 16 rack che portano facilmente il consumo complessivo a 240KW se si vuole assicurare che i 15KW per rack siano disponibili per tutti gli armadi. Poiché si tratta di assorbimenti massimi è uso comune andare in overbooking, ovverosia fornire una potenza inferiore alla somma della potenza erogabile per rack.
È importante osservare che, in un mondo in cui ci si aspetta che i servizi siano disponibili 24x7x365, di norma a ciascun rack si portano 2 delle 3 fasi della corrente, così che sia possibile collegare i server alle due linee (i server e gli altri apparati di datacenter hanno normalmente 2 alimentatori per assicurare continuità di servizio qualora se ne fermi uno) distinte; in questo modo interventi elettrici potranno essere effettuati spegnendo una linea alla volta e mantenendo i servizi nel data center attivi.
Il raffreddamento
Il raffreddamento è l’altro elemento centrale nel datacenter, e l’incremento di densità di emissione di calore da parte degli apparati ha reso sempre più rilevante la capacità di drenare rapidamente aria calda vicino ai server centrale al funzionamento e ad un uso efficiente delle risorse. Il raffreddamento, superato il condizionatore a parete, si è sviluppato molto nel corso degli ultimi 20 anni selezionando sostanzialmente due architetture possibili: il CRAC con pavimento flottante, e in-row cooling.
Il CRAC (la prima delle due immagini in basso) prevede tipicamente un apparato refrigerante all’interno della sala che aspira aria dall’alto (dove è più calda) e dopo averla raffreddata la spinge sotto il pavimento; di fronte ai rack sono presenti dei buchi nel pavimento che consentono all’aria fredda di salire per convezione, essere aspirata dai server e quindi, una volta riscaldata, essere recuperata per un nuovo ciclo di raffreddamento. L’in-row cooling fa uso invece di un sistema di raffreddamento basato su acqua che viene raffreddata tipicamente all’esterno da apparati refrigeranti (chiller); l’acqua fredda viene fatta passare attraverso degli scambiatori termici con delle ventole che raffreddano l’aria. Grazie a questo approccio è possibile aver maggior controllo sui volumi di aria fredda che vengono iniettati in particolari zone del data center, inoltre la ventilazione forzata consente di aumentare la quantità di aria fredda prodotta a seconda del carico in ingresso ai server nei vari rack (si veda la figura a destra come esempio).
Questi sono due approcci comuni, ma ne esistono molti altri, tutti basati su principi termodinamici e volti a minimizzare il costo di raffreddamento. C’è chi, ad esempio, ha aperto fori rivolti all’esterno del data center per estrarre l’aria calda, in altri casi si cerca di utilizzare l’aria esterna opportunamente trattata riducendo la necessità di impiegare costantemente gruppi frigoriferi in funzione riducendo i costi di raffreddamento. In ogni caso il mantra è quello di evitare che l’aria fredda si mescoli con quella calda, e cercare di tenere la temperatura il più alto possibile, compatibilmente con le specifiche dei server ospitati, per ridurre i costi di raffreddamento.
Il PUE e l’efficienza di un data center
Al fine di capire l’efficienza di un data center è stato elaborato un parametro che, nella sua crudezza, indica l’efficienza di un data center. Il Power Usage Effectiveness (PUE) è un indice che si calcola in modo semplice: potenza totale assorbita / potenza usata per alimentare gli apparati di calcolo. In un mondo ideale la misura dovrebbe essere 1 (ovverosia tutta e sola l’energia assorbita dovrebbe servire all’alimentazione dei server di calcolo). Questo è evidentemente impossibile, valori accettabili oggi sono 1,2 o meno, attestando il costo energetico del raffreddamento a circa il 20% del costo per alimentare i server.
In passato valori tipici erano intorno a 2 oppure 1,5, portando a consumi e quindi costi di esercizio molto più alti.
Organizzare il datacenter
Un data center è quindi un’infrastruttura atta ad ospitare servizi in esecuzione su uno o più server. Si tratta di una o più stanze attrezzate per erogare la potenza richiesta minimizzando il PUE. Normalmente i rack si raggruppano in isole chiuse. L’isola in effetti altro non è che due file di rack rivolti in modo opposto (fronte con fronte o retro con retro) in modo che il corridoio tra i due rack (come quello rappresentato in figura) sia chiuso e l’aria, sia essa fredda (e quindi con i rack rivolti fronte a fronte) o calda (retro con retro), è confinata e può essere trattata senza che si vada a mischiare con quella dell’ambiente, aumentando l’efficienza.
Ciascuna organizzazione trova il proprio equilibrio, anche perché le tecniche che sono impiegabili per efficientare l’uso delle risorse dipendono anche dalle risorse impiegate e dalla capacità richiesta. In tutti i casi è necessario effettuare una progettazione che cerchi di minimizzare l’indice PUE, e prevedendo possibilità di espansione dei sottosistemi in modo da non effettuare una progettazione troppo sovradimensionata.
Sebbene la realizzazione del data center sia un impegno economico e di progettazione notevole, spesso si pensa che una volta costruito le fatiche si siano esaurite. Quando si concentrano molti sistemi di calcolo in un unico spazio tutto un tratto la rottura di un componente diventa la norma, ed è essenziale definire delle procedure per l’accesso e la gestione delle operazioni all’interno del data center. Gli aspetti decisamente più critici sono la documentazione (in modo da poter fare gestione degli asset, analisi del rischio, e pianificare interventi senza dover andare a tentoni), l’attuazione e il rispetto delle procedure all’interno, la pulizia, e laddove sia necessaria la sicurezza fisica atta a preservare i dati memorizzati all’interno dei sistemi.
Il processo di razionalizzazione dei data center della PA
Sono alcuni anni che AgID sta cercando di razionalizzare i data center della Pubblica Amministrazione proprio per contenere una spesa che al complicarsi delle tecnologie è sempre più complesso. La strategia identificata dal piano triennale è quella di incoraggiare la Pubblica Amministrazione a adottare un modello cloud per l’erogazione dei propri servizi, sia esso un cloud privato, pubblico oppure uno erogato da terze parti.
Nel corso del 2018 AgID ha effettuato un censimento a seguito della circolare n. 5/2017 che individua 3 gruppi in cui classificare i data center della PA: Poli Strategici Nazionali, gruppo A, e gruppo B. L’idea iniziale era quella di consolidare nei data center più moderni i servizi della PA chiudendo tutte le sale che costano da mantenere e che non sono in grado di erogare servizi digitali in continuità di esecuzione.
Dopo un percorso non lineare il censimento, chiuso e riaperto, ha visto recentemente la sua conclusione, censendo 1.152 data center della PA (a fronte di circa 11.000 data center che si stima siano nella PA) di cui solo 62 sono risultati gruppo A (27) e candidabili a Polo Strategico Nazionale (35). Il quadro normativo prevede che le PA che abbiano in esercizio un data center di gruppo B (se non censito è da considerarsi comunque tale) debba avviare il processo dei propri servizi verso o un PSN oppure un Cloud Service Provider (CSP) qualificato da AgID. A conclusione dell’analisi AgID, anche su indicazioni del Ministro per l’innovazione tecnologica e la digitalizzazione Paola Pisano del Ministero, ha pubblicato un comunicato stampa in cui rivede, almeno in parte, la strategia per la gestione del patrimonio ICT della PA ritagliando un nuovo ruolo per i datacenter di gruppo A, e come si organizzerà il processo che porterà alla chiusura dei datacenter qualificati gruppo B.
Va osservato che la circolare AgID n. 1/2019 prevede delle eccezioni alla strategia complessiva sui data center, riconoscendo a università e centri di ricerca ed enti appartenenti al Sistema Sanitario Nazionale la possibilità di investire su data center legati però ad attività relative alla ricerca e al trasferimento tecnologico nel primo caso, e al supporto alla diagnostica clinica nel secondo. È importante che nel processo di razionalizzazione si recepisca il ruolo che alcuni comparti della PA hanno e si consenta un trattamento più mirato senza però rinunciare al processo di razionalizzazione necessario data l’esplosione di complessità nella realizzazione di data center. Infatti, anche per queste pubbliche amministrazioni l’eccezione non riguarda sistemi di natura amministrativa che dovranno seguire il corso tracciato per tutte le pubbliche amministrazioni.
Le nuove sfide
Il design di un data center sta divenendo un’attività sempre più complessa, soprattutto a causa del continuo aumentare della densità di risorse per unità di rack. Basti pensare che in un data center medio piccolo (da 80KW di potenza complessiva) l’arresto del sistema di condizionamento ha portato la temperatura interna a superare i 40 gradi in meno di 30 minuti, introducendo anche rischi di incendio e danneggiamento agli apparati.
Le pubbliche amministrazioni hanno il percorso segnato da MID e AgID, per quanto riguarda gli enti privati è naturale aspettarsi che solo gli enti grossi saranno in grado di mantenere queste infrastrutture in autonomia, sia per la richiesta di personale specifico, che per gli investimenti necessari. In ogni caso, sia che si usino infrastrutture proprie o che ci si rivolga a infrastrutture terze (es. il cloud pubblico), l’abilità di poter eseguire calcoli su infrastrutture complesse è divenuto necessario per poter sviluppare il sistema paese.