L’impatto dell’AI sulle infrastrutture dei data center

Il consumo energetico dei data center, già significativo a causa della crescente diffusione di applicazioni quali criptovalute e intelligenze artificiale (AI)/apprendimento automatico (ML), è destinato a crescere rapidamente per soddisfare le richieste degli utenti.

In base ai dati contenuti in un recente rapporto dell'IEA (International Energy Agency), nel 2022 i data center hanno consumato 460 TWh, che rappresenta circa il 2% di tutta l'elettricità utilizzata su scala globale. Negli Stati Uniti, dove è ubicato un terzo dei data center mondiali, il consumo è stato pari a 260 TWh, che corrisponde al 6% di tutta l'elettricità utilizzata.

Prevedere il futuro è un'impresa ardua e molto dipende dal numero di GPU, dispositivi che notoriamente consumano molta energia, che verranno utilizzate per soddisfare le esigenze delle applicazioni basate sull’intelligenza artificiale. A tutto ciò bisogna aggiungere i consumi dell'aria condizionata, indispensabile per mantenere una temperatura adeguata all'interno dei data center. Il report di IEA evidenzia che, entro il 2026, il consumo dei data center crescerà fino ad almeno 650 TWh (con un incremento del 40%), ma potrebbe toccare quota 1.050 TWh (+128%).

 

Supportare l'AI nei data center

Poiché l'intelligenza artificiale è una tecnologia che richiede una grandissima quantità di energia, i data center che la supportano devono avere capacità adeguate, in termini sia di potenza di calcolo sia di fornitura di energia, per assovere tale compito.

Un recente studio condotto dall'istituto di ricerca svedese RISE ha evidenziato l'impatto di questo cambiamento imputabile alla rapida adozione di questa tecnologia. ChatGPT, ad esempio, ha raggiunto un milione di utenti a distanza di cinque giorni dalla sua introduzione, avvenuta nel novembre 2022. Nell'arco di due mesi ha raggiunto i 100 milioni di utenti, un traguardo conseguito da TikTok in nove mesi e da Istagram in due anni e mezzo.

Per avere un'idea del contesto in cui si sta operando, è utile ricordare che l'esecuzione di una ricerca su Google consuma 0,28 Wh, ovvero l'energia necessaria per far funzionare una lampadina da 60 W per 17 secondi.

In confronto, per l'addestramento di GPT-4 con 1700 miliardi di parametri e utilizzando 13.000 miliardi di token (frammenti o pezzi di parole) i numeri sono completamente diversi. Per svolgere tale operazione, sono necessari numerosi server, che integrano complessivamente 25.000 GPU della seria A100 di NVIDIA, ciascuno dei quali consuma circa 6,5 kW. OpenAI ha dichiarato che un addestramento di questo tipo ha richiesto 100 giorni e l'utilizzo di circa 50 GWh di energia, per un costo di 100 milioni di dollari.

Da quanto appena esposto, è chiaro che l'intelligenza artificiale rappresenterà un punto di svolta per i data center, in quanto richiede una potenza di elaborazione e livelli di energia di ordini di grandezza decisamente superiori rispetto a quelli attuali.

 

Architettura a 48 V per i data center

I primi data center utilizzavano un'architettura di potenza di tipo centralizzato (CPA Centralized Power Architecture), dove la conversione della tensione di rete alla tensione del bus (12 V) veniva eseguita a livello centralizzato. Questa tensione veniva quindi distribuita ai server e convertita ai valori di tensione richiesti dai livelli logici (5 o 3,3 V) localmente mediante convertitori relativamente semplici.

Tuttavia, con l'aumentare dei requisiti di potenza, le correnti sul bus a 12 V (e le relative perdite) avevavo raggiunti valori non più accettabili, costringendo di fatto i progettisti di sistema a passare a una configurazione che prevedeva un bus a 48 V. In questo modo era possibile ridurre sia la corrente (di un fattore pari a quattro) sia le perdite (in misura pari al quadrato della corrente), come stabilito dalla legge di Ohm. Una configurazione di questo tipo ha preso il nome di architettura di potenza distribuita (DPA – Distributed Power Architecture).

Contemporaneamente, le tensioni richieste per l'alimentazione di processori e altri componenti sono diminuite a valori anche inferiori al Volt (sub-Volt), rendendo necessario il ricorso a più terminali (rail) secondari. Per soddisfare questa esigenza, è stata introdotta una conversione a due stadi che prevede un convertitore DC-DC (noto come convertitore di bus intermedio - IBC) che converte la tensione di 48 V del bus in una tensione a 12 V, a partire dalla quale vengono derivati altri valori di tensione in base alle necessità. (Fig. 1)

Fig. 1 – Architettura di un sistema di potenza di un server
Fig. 1 – Architettura di un sistema di potenza di un server

 

Il ruolo dei MOSFET ad elevata efficienza energetica

Le perdite di potenza all'interno di un data center comportano l'insorgere di alcune problematiche per gli operatori. La prima, e più ovvia, è che sono costretti a pagare dell'l'elettricità che non viene utilizzata per il funzionamento dei server. La seconda è rappresentata dal fatto che qualsiasi spreco di energia si manifesta sotto forma di calore, che deve essere adeguatamente smaltito.

Nel caso di server per applicazioni AI di tipo hypersale caratterizzati da un fabbisogno energetico di 120 kW (valore sicuramente destinato ad aumentare nel tempo), anche una perdita del 2,5% (con un'efficienza di picco quindi del 97,5%) in presenza di un carico del 50% si traduce in uno spreco di energia pari a 1,5 kW per server, equivalente a una stufa elettrica in funzione a tempo pieno.

Per quanto concerne la gestione del calore, è possibile adottare misure di attenuazione termica all'interno del sistema di conversione di potenza che prevedono ad esempio il ricorso a dissipatori o ventole. Ciò comporta un aumento delle dimensioni dell'alimentatore e una contemporanea diminuzione dello spazio che potrebbe essere utilizzato per installare una maggiore potenza di calcolo. Nel caso delle ventole, è necessario considerare il fatto che consumano elettricità con conseguente aggravio dei costi. Poiché all'interno dei datacenter le temperature devono essere attentamente controllate, perdite eccessive si traducono in un aumento della temperatura ambiente, che a sua volta comporta un onere maggiore in termini di climatizzazione. Oltre a rappresentare una spesa in conto capitale e un costo operativo, una soluzione come quella appena descritta “consuma” più spazio.

Ovviamente, la conversione dalla tensione di rete alla tensione necessaria per alimentare le GPU utilizzate per l'AI e gli altri dispositivi nel modo più efficiente possibile rappresenta un grande vantaggio per i gestori di un data center.

Per questa ragione, nel corso degli anni le topologie di alimentazione sono state oggetto di grande attenzione e sono state introdotte parecchie tecniche all'interno dello stadio PFC del front end, come la TPPFC (Totem Pole PFC), al fine di aumentarne l'efficienza. Oltre a ciò, i rettificatori a diodi sono stati sostituiti con MOSFET per garantire una maggiore efficienza, mentre sono state introdotte tecniche come la rettifica di tipo sincrono.

Il miglioramento della topologia, anche se rappresenta un passo importante, da solo non è sufficiente. Per ottimizzare l'efficienza, tutti i componenti devono garantire la massima efficienza possibile – soprattutto i MOSFET, dispositivi essenziali del processo di conversione.

Quando i MOSFET vengono impiegati per la conversione di potenza a commutazione, esistono due forme principali di perdite: perdite di conduzione e perdite di commutazione. Le perdite del primo tipo sono dovute alla resistenza tra il drain e il source (RDS(ON)) e si manifestano quando scorre la corrente. Le perdite di commutazione sono dovute alla combinazione di numerosi tipi di carica – carica di gate (Qg), carica di uscita (QOSS) e carica di recupero inversa (Qrr) - che vengono reintegrate a ogni ciclo di commutazione. Poiché la tendenza è aumentare le frequenze di commutazione per ridurre le dimensioni dei componenti magnetici, le perdite di commutazione possono diventare significative con l'aumento della frequenza di ripristino delle cariche.

Chiaramente, quanto più ridotte sono le perdite di conduzione e di commutazione di un particolare MOSFET, tanto migliore sarà l'efficienza di conversione complessiva del sistema di potenza.

I vantaggi dei MOSFET T10 PowerTrench

Il raddrizzamento sincrono è oggigiorno una tecnica fondamentale in tutte le applicazioni di conversione di potenza ad alte prestazioni che prevedono elevate correnti e tensioni di valore ridotto, come appunto i server utilizzati nei data center. Poichè in applicazioni di questo tipo sono numerosi i paramentri dei MOSFET – tra cui RDS(ON), Qg, QOSS e Qrr – che influiscono direttamente sull'efficienza di conversione, i produttori di dispositivi stanno cercando di ridurre il loro valore.
I MOSFET della serie T10 PowerTrench di onsemi, ad esempio, sono caratterizzati da valori bassissimi di Qg grazie alla nuova struttura “trench gate” (gate a trincea) schermata e da valori di RDS(ON) inferiore a 1 mOhm. La tecnologia PowerTrench T10 di ultima generazione, grazie all'innovativo diodo intrinseco a recupero graduale (soft recovery) e al ridotto valore della carica di recupero inversa (Qrr) permette di ridurre oscillazioni, sovraelongazioni e rumore elettrico.  In questo modo è possibile ottenere un adeguato compromesso tra le prestazioni della resistenza in fase di accensione e il comportamento in fase di recupero, consentendo anche una commutazione rapida con perdite ridotte con ottime caratteristiche in termini di recupero inverso.

Complessivamente, i miglioramenti dei parametri dei dispositivi T10 PowerTrench di onsemi assicurano una migliore efficienza delle soluzioni di potenza utilizzate in applicazioni di commutazione con elevati valori di corrente e valori medio/bassi di tensione. In linea generale, si può affermare che le perdite di commutazione sono state ridotte fino al 50% rispetto ai dispositivi della generazione precedente, mentre per le perdite di conduzione la riduzione si aggira attorno al 30-40%.

onsemi ha introdotto due serie di dispositivi da 40 e 80 V realizzati sfruttando la tecnologia T10 PowerTrench . I MOSFET NTMFWS1D5N08X (80V, 1,43mΩ, package SO8-FL di dimensioni pari a 5x6 mm) e NTTFSSCH1D3N04XL (40V, 1.3mΩ, package di tipo “source down – ovvero con il terminale di source connesso al pad termico – con raffreddamento su entrambi i lati (dual cooling) di dimensioni pari a 3.3x3.3 mm) assicurano le migliori figure di merito (FOM – Figure Of Merit) per le unità di alimentazione (PSU – Power Supply Unit) e i convertitori di bus intermedio (IBC – Intermediate Bus Converter) utilizzati nei data center AI. Essi permettono a PSU e IBC di raggiungere livelli di efficienza pari rispettivamente al 97,5% e al 98%, come previsto dalle specifiche Open Rack V3. (Fig. 2)

Fig. 2 – Una sintesi dei vantaggi dei MOSFET PowerTrench T10 di onsemi
Fig. 2 – Una sintesi dei vantaggi dei MOSFET PowerTrench T10 di onsemi

Considerazioni conclusive

Con la rivoluzione dell'intelligenza artificiale ormai alle porte, non è possibile prevedere con certezza quali saranno le future esigenze di potenza dei data center. Sicuramente, ci saranno nuovi problemi da risolvere. La scarsità di spazi e le limitazioni della rete elettrica rendono difficile l'individuazione di nuove sedi con capacità sufficienti per soddisfare le esigenze. La domanda complessiva di energia necessaria per alimentare le strutture IT critiche sta aumentando in maniera esponenziale, il che comporta inevitabilmente un sensibile aggravio dei costi. Per soddisafre queste esigenze, i proprietari dei data center dovranno non solo realizzare nuove strutture, ma anche sfruttare al massimo le potenzialità di quelle esistenti, cercando di realizzare configurazioni contraddistinte da una maggiore densità di potenza (MW/m2).

 

Poichè i livelli di potenza richiesti sono destinati sicuramente a superare i 100 kW, la conversione di potenza sarà uno dei fattori chiave che permetterà di ottenere i livelli di efficienza necessari per ottimizzare il funzionamento (in termini energetici) dei data center, aumentando in modo affidabile la densità di potenza e consentendo di sfruttare al meglio gli spazi in data center sempre più affollati.

 

Grazie a caratteristiche quali RDS(ON) ridottissima, maggiore densità di potenza,  riduzione delle perdite di commutazione e migliori prestazioni termiche, la tecnologia T10 PowerTrench di onsemi consente di ridurre il costo totale del sistema. In definitiva, in un mondo dove l'AI assumerà un ruolo sempre più centrale, le tecnologie innovative nel campo dei semiconduttori di potenza, come appunto T10 PowerTrench, sono destinate rivestire un ruolo da sicure protagoniste.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome