Comment construire l’infrastructure des data centers à l’ère de l’IA
L’IA ne révolutionne pas seulement notre façon de travailler. Elle remodèle la conception des data centers qui l’accueillent. Pour Panduit, c’est toute l’infrastructure qu’il s’agit de repenser.
« L’intelligence artificielle, pour un gestionnaire de data center, c’est plus de câbles à fibre optique, plus d’espace pour les voies, plus de chaleur et, surtout, plus d’énergie ! », illustre Karel Verplaetsen, Technical Systems Engineer, Panduit. Or, jusqu’à 80% des data centers seraient inadaptables aux énormes besoins de l’IA, alertent plusieurs acteurs du secteur. Le défi en termes d’infrastructure est donc énorme. Panduit en présentera les enjeux le 19 novembre lors des Luxembourg Internet Days.
Plus d’énergie, plus de refroidissement
Au cœur de l’infrastructure de l’IA se trouvent les GPU (Graphic Processing Units) qui excellent dans les calculs spécialisés et de haute performance. Ceux-ci peuvent être environ quatre fois plus gourmands en énergie que les CPU. Ce qui veut dire que l’alimentation électrique calculée à l’origine ne représente plus que 25 % de ce qui est nécessaire pour faire fonctionner les centres de données modernes servant à l’IA !
Même les centres de données hyperscale à la pointe de la technologie utilisés par Amazon, Microsoft et Alphabet pour l’informatique basée sur le cloud sont encore alimentés par des CPU. À titre d’exemple, la puce IA A100 que propose actuellement Nvidia a une consommation unitaire constante d’environ 400 W, alors sa dernière puce, la H100, consomme pratiquement le double.
Qu’il s’agisse des puces ou de l’infrastructure des centres de données, le déséquilibre grandit. Il faudra repenser leur conception, analyse Karel Verplaetsen. Ainsi, à propos du refroidissement. « Par le passé, une densité de rack d’environ 10 à 20 kW était standard et facilement gérée par le refroidissement par air. Mais au-delà de 30 kW par rack, le refroidissement par air n’est plus une option viable… » La tendance est au refroidissement liquide, qui n’est, toutefois, pas une solution simple à mettre en œuvre.
Multiples impacts sur l’infrastructure
Le recours à l’IA a également un impact sur la connectivité et la puissance disponible. « Comme nous devons faire face à de nouvelles normes en matière de refroidissement, nous devrons peut-être aussi reconsidérer les dimensions standards pour les armoires », poursuit Karel Verplaetsen.
Faut-il préciser, aussi, que même le câblage ne sera plus le même qu’avant ? « Une bonne conception des câbles est plus importante que jamais ; ceux-ci doivent tenir des dizaines d’années, renchérit Karel Verplaetsen. Si les câbles en cuivre restent intéressants, notamment pour les applications ‘hors bandes’ et dans les tableaux, nous voyons très logiquement une hausse de la demande de câblage à fibre optique. Les avantages sont significatifs : haute vitesse, faible latence et large bande passante. »
De multiples facteurs sont à prendre en compte, continue Karel Verplaetsen. « Combien de câbles allez-vous dissimuler, comment comptez-vous assembler les faisceaux de câbles, comment allez-vous gérer le tout, qu’en est-il de la densité, comment pouvons-nous contribuer à une réduction des émissions de CO2 à l’aide de constructions de câbles, etc. » Panduit peut, par exemple, prendre en charge des largeurs de bande importantes avec des applications « breakout », en répartissant par exemple 100 Go en 4 x 25 Go.
Infiniband plutôt qu’Ethernet
En réseautique, InfiniBand et Ethernet ont leurs propres caractéristiques et différences. Le premier est largement utilisé dans les environnements HPC en raison de sa large bande passante, de sa faible latence et de son support optimisé pour le calcul parallèle. Surtout, InfiniBand est une norme ouverte qui facilite la connectivité haute performance entre les serveurs CPU/GPU, les serveurs de stockage et d’autres périphériques.
« Avec l’IA, c’est toute la conception des centres de données qui va évoluer. Ils devront être évolutifs et flexibles, conclut Karel Verplaetsen. Les réseaux à haut débit et à faible latence sont essentiels pour un traitement efficace des données d’IA, ainsi que des systèmes de stockage robustes et des techniques avancées de gestion des données. Par ailleurs, les gestionnaires de data centers seront soumis à une pression toujours plus forte pour atténuer l’impact environnemental des opérations. »