Nella prima settimana di giugno, alla conferenza International supercomputing (ISC), che quest’anno si è tenuta ad Amburgo, si è assistito a un annuncio storico: Frontier, il supercomputer numero uno al mondo ha infranto la barriera dell’exaflop, ovverosia è riuscito per la prima volta il limite di un miliardo di miliardi di operazioni in virgola mobile per secondo. Un numero a 19 cifre che è difficile anche da visualizzare nella propria mente.
Oltre all’annuncio del superamento della barriera dell’exascale, il raffreddamento a liquido è stato protagonista di questa edizione: le CPU continuano a incrementare il calore dissipato (in direzione di 350W di TDP per CPU) rendendo i sistemi di raffreddamento ad aria sempre meno adeguati. La soluzione che i produttori inseguono consiste nel creare circuiti con acqua che entrano all’interno del server raffreddando mediante degli scambiatori di calore le varie componenti del server.
Ma andiamo per gradi.
Supercomputer, il ruolo dell’Italia nella competizione europea e globale
Supercomputing: il primato torna negli Usa
Il national Oak Ridge Laboratory con il supercomputer chiamato Frontier ha riportato il primato negli Stati Uniti dopo due anni di supremazia giapponese con il supercomputer Fugaku capace della metà della performance di Frontier.
Degno di nota è anche il terzo supercomputer classificato, Lumi, realizzato in Finlandia nell’ambito del progetto europeo EuroHPC volto ad assicurare un ruolo di primo piano dell’Europa in questo ambito.
Scorrendo la lista al dodicesimo posto troviamo HPC5 di Eni, supercalcolatore che all’inaugurazione a inizio del 2020 è entrato in sesta posizione nella lista.
La classifica
La top 500 è una classifica molto particolare in informatica perché è un po’ come la formula uno dei calcolatori. Il calcolo scientifico richiede infatti sempre più capacità per poter aiutare gli scienziati a simulare fenomeni sempre più complessi in praticamente ogni area dello scibile umano. Al fine di promuovere il design di super calcolatori attraverso la competizione si è definito un benchmark rappresentativo per il calcolo scientifico (largamente basato su operazioni numeriche in virgola mobile per la soluzione di sistemi lineari) e per decenni ogni sei mesi si certificano i 500 supercomputer più potenti del pianeta.
L’annuncio nell’era recente avviene alle due conferenze di riferimento del settore: Supercomputing (SC) che si tiene a novembre negli Stati Uniti, e International supercomputing (ISC) che si tiene a giugno in Germania.
I primi tre supercomputer della Top 500 sono quindi:
Ci sono numerose informazioni che si possono dedurre da questa lista: in primis che il miglioramento di potenza per FLOP tra Fugaku e Frontier è stato significativo. Per tanti anni si è cercato di rendere efficiente la CPU in modo da poter rompere la barriera dell’exascale con un uso di corrente “sostenibile” se 21 megawatt si possono definire tali. Un altro fatto che salta all’occhio è che sia il primo che il terzo sistema sono basati su CPU e GPU AMD, fatto interessante poiché ci si aspettava che fossero Intel e nVidia a rompere per primi la barriera.
Sicuramente la nuova generazione di tecnologie ha contribuito all’efficientamento energetico aumentando di quasi un fattore 4 i FLOP per Watt assorbito.
L’impatto nel mondo reale
Nel susseguirsi delle varie stagioni nei 25 anni di Top 500 alla guida della classifica si sono visti supercalcolatori sviluppati appositamente per effettuare calcoli alternarsi a sistemi realizzati usando tecnologia standard come nel caso di quest’anno dove due dei tre sistemi fanno uso di processori x86 e GPU utilizzabili anche nella realizzazione di sistemi non orientati al calcolo scientifico.
Ci si può chiedere l’impatto che questa peculiare competizione possa avere nel design dei sistemi ordinari che usiamo per realizzare servizi per la PA o più in generale per sistemi aziendali.
Come accade nel mondo delle corse, molte innovazioni introdotte per i sistemi della top 500 trovano la propria strada per sistemi ordinari. È il caso, ad esempio, del sistema di interconnessione Infiniband nato nel contesto del calcolo scientifico e successivamente adottato nella realizzazione di storage performanti.
Il raffreddamento a liquido
Sebbene si tratti ancora di design per la fascia alta è importante che chi amministra datacenter cominci a familiarizzare con la tecnologia di raffreddamento a liquido, e soprattutto riveda i propri design per assicurare da una parte che l’acqua necessaria al raffreddamento possa raggiungere il singolo server, e allo stesso tempo isolare al meglio eventuali versamenti d’acqua che potrebbero generare cortocircuiti all’interno degli armadi (i sistemi di raffreddamento impiegano connettori e materiali molto robusti e il rischio di versamento è basso ma non può essere completamente annullato).
Armadi sempre più densi
La necessità di sistemi di raffreddamento sempre più sofisticati e la loro graduale adozione contribuisce all’aumento della densità di corrente per armadio in un datacenter. Se qualche anno fa un design a 15KW/rack sembrava più che adeguato ora si rischia di avere armadi per lo più vuoti in assenza di un design a 30KW/rack, senza contare che il continuo aumento di potenza richiesta potrebbe mettere in crisi le forniture dei datacenter a causa dell’inadeguatezza della rete elettrica e dell’impossibilità di raddoppiare la potenza erogata in un particolare sito.
L’incremento di complessità nella gestione dei server e del loro raffreddamento non fa che confermare che la politica sostenuta da AgID con la razionalizzazione dei datacenter della PA è quella giusta visto la continua crescita nelle richieste tecniche e di risorse necessarie all’erogazione di servizi.
Conclusioni
L’evoluzione dei processori e delle architetture continua ad essere influenzata dai sistemi di supercalcolo, e guardando al futuro sembra inevitabile il ricorso a server con il raffreddamento ad acqua all’interno (l’uso di oli e glicoli sembra essere più complesso da gestire sebbene possibile e per cui esistono soluzioni appositamente disegnate).
L’incremento del TDP dei processori (e della dimensione stessa del processore) sembra aprire ad una nuova era in cui il design dei server e dei rack sarà ancora più complesso, anche visti i costi energetici destinati ad esplodere al perdurare dello stato di guerra.