tech 5 min • intermediate

Densité de Puissance Élevée : Redéfinir l'Infrastructure des Centres de Données

Atteindre une Puissance Haute Densité Sûre et Efficace pour les Charges de Travail IA

Par AI Research Team
Densité de Puissance Élevée : Redéfinir l'Infrastructure des Centres de Données

Densité de Puissance Élevée: Redéfinir l’Infrastructure des Centres de Données

Atteindre une Puissance de Haute Densité Sûre et Efficace pour les Charges de Travail IA

Le paysage technologique subit un changement sismique avec la montée fulgurante des charges de travail d’intelligence artificielle (IA), forçant les centres de données du monde entier à repenser l’infrastructure de fond en comble. C’est une transformation dictée par les exigences de puissance de calcul brute des modèles IA à grande échelle, nécessitant des densités inimaginables il y a seulement quelques années. Comment les centres de données peuvent-ils répondre à ces exigences croissantes en toute sécurité et efficacité? Cette question stimule l’innovation dans les domaines électrique, thermique et mécanique du design des centres de données.

Le Défi de la Densité de Puissance Dictée par l’IA

Les tâches modernes d’intelligence artificielle et d’apprentissage automatique (ML) nécessitent une puissance de calcul immense, rassemblant de nombreux accélérateurs GPU dans un seul rack. Cette concentration de matériel peut faire passer les densités de puissance dans les centres de données d’une conventionnelle 30 kW par rack à une intensité de 200 kW ou plus. À mesure que les appareils améliorent leurs performances, ils génèrent également une quantité de chaleur impressionnante, poussant les méthodes traditionnelles de refroidissement par air au-delà de leurs limites.

La génération actuelle d’accélérateurs IA, comme les H100 de NVIDIA et les Instinct MI300X d’AMD, consomme chacun plus de 700 watts. Cela nécessite une réévaluation fondamentale des solutions de refroidissement et de distribution de puissance dans les centres de données pour gérer efficacement ces intensités de puissance et thermique.

Solutions Innovantes de Refroidissement

Refroidissement Liquide: L’Avant-Garde de la Gestion Thermique

Pour gérer la sortie thermique des racks haute densité, de nombreux opérateurs se tournent vers des solutions de refroidissement liquide. Le refroidissement direct au composant (DTC) devient une option populaire, qui consiste à fixer des plaques froides refroidies par liquide directement aux composants gourmands en ressources comme les CPU et les GPU. Cette méthode dissipe efficacement la chaleur à la source, offrant des densités de puissance de rack potentielles de 60 à 120+ kW.

Le refroidissement par immersion est une autre option de plus en plus attrayante, surtout pour les densités extrêmes. Il s’agit de submerger des racks de serveurs entiers dans des fluides diélectriques, améliorant considérablement la gestion thermique et atteignant potentiellement des valeurs PUE aussi basses que 1,05. Cependant, le refroidissement par immersion exige des changements importants dans les processus de service et une évaluation approfondie des chaînes d’approvisionnement en fluides.

Échangeurs de Chaleur à Air Renforcé et Porte Arrière

Bien que le refroidissement liquide offre une efficacité thermique impressionnante, de nombreux centres de données existants doivent s’adapter sans abandonner leurs infrastructures actuelles. Les échangeurs de chaleur à porte arrière (RDHx) offrent une solution intermédiaire. Ces systèmes s’attachent à l’extérieur des racks et extraient la chaleur avant qu’elle ne pénètre dans toute la salle de données, soutenant des densités de rack jusqu’à 90 kW. Les techniques d’air renforcé, y compris les stratégies de confinement sophistiquées, restent viables pour la rénovation des espaces sous 30 kW par rack, bien qu’elles offrent une marge de croissance limitée.

Distribution de Puissance: Repenser l’Infrastructure Électrique

Le besoin d’une distribution de puissance efficace est crucial à mesure que les demandes énergétiques augmentent. Les stratégies émergentes favorisant l’alimentation triphasée 415/240 V et les écosystèmes 48 V DC deviennent la norme dans les environnements haute densité. Ces systèmes réduisent les pertes de transmission et permettent des courants plus élevés grâce à des innovations comme les étagères d’alimentation enfichables à l’aveugle et les collecteurs de liquide intégrés, optimisant ainsi à la fois l’espace et l’efficacité.

Adopter la modularité avec des composants préfabriqués permet un déploiement rapide et s’aligne avec l’utilisation durable de l’énergie. La préfabrication peut réduire les délais de construction de plusieurs années traditionnelles à quelques mois seulement, aidant à répondre aux calendriers de déploiement rapide requis par les besoins croissants de l’IA.

Trouver un Équilibre: Modularité et Durabilité

Les modules préfabriqués de centres de données et les pods GPU containerisés représentent une approche agile pour étendre la capacité d’infrastructure. Cette modularité améliore la flexibilité en termes de déploiement et augmente la capacité sur des sites contraints sans révisions opérationnelles massives. De même, l’adoption de normes ouvertes comme Open Rack V3 (ORV3) et Advanced Cooling Solutions (ACS) de l’Open Compute Project facilite une intégration plus aisée dans des environnements multi-fournisseurs.

La durabilité occupe également un fil conducteur central dans ces nouvelles conceptions. Le refroidissement liquide associé à des économiseurs d’air réduit considérablement la consommation d’énergie et d’eau, atteignant des chiffres de PUE propices aux objectifs d’efficacité modernes. Notamment, des entreprises comme Meta et Amazon ont commencé à démontrer des projets réussis de récupération de chaleur, réutilisant la chaleur perdue pour alimenter les systèmes de chauffage urbain, illustrant une avancée significative vers des objectifs neutres en carbone.

Conclusion: Une Voie à Suivre

La trajectoire de la technologie des centres de données souligne un basculement clair vers l’accommodation de densités de puissance plus élevées grâce à une gestion thermique innovante et des solutions d’alimentation efficaces. Les systèmes de refroidissement direct au composant, par immersion et préfabriqués modulaires joueront des rôles pivotaux dans cette évolution, mariant les exigences de performance élevée avec les impératifs de durabilité et d’efficacité. En alignant le choix de refroidissement avec les stratégies de distribution de puissance et en intégrant des normes ouvertes, les centres de données peuvent se déplacer face aux défis croissants de l’IA, atteignant finalement un équilibre de performance et de durabilité nécessaire pour l’avenir.

Sources & Références

www.ashrae.org
ASHRAE Datacom Series (incl. Liquid Cooling Guidelines) Provides guidelines for implementing liquid cooling systems, essential for handling high-density power in AI-driven data centers.
uptimeinstitute.com
Uptime Institute Global Data Center Survey 2023 (PUE trends) Offers insights into current energy efficiency trends in data centers, relevant for understanding shifts in cooling solutions.
www.nvidia.com
NVIDIA H100 Data Center GPU An example of high power consumption GPUs driving increased data center power density requirements.
www.amd.com
AMD Instinct MI300X Highlights the power demands of modern AI accelerators that influence cooling and power infrastructure decisions.
www.vertiv.com
Vertiv – Liquid Cooling for Data Centers Discusses the advantages and challenges of implementing liquid cooling solutions in data centers, vital for high-density setups.
submer.com
Submer – Immersion Cooling Technologies Explains immersion cooling technologies, relevant for maximizing density and efficiency in data centers.
www.stulz.com
STULZ – CyberRack Rear Door Cooling Describes the rear-door heat exchanger solution, applicable for retrofitting existing data center spaces.
about.fb.com
Meta – Odense Data Center Heat Recovery An example of successful heat reuse in data centers, supporting sustainable operations.
aws.amazon.com
AWS – Delivering District Heating in Ireland Provides an example of how data centers can contribute to sustainability through heat recovery.
www.opencompute.org
Open Compute Project – Open Rack V3 (ORV3) Details open standards critical for facilitating multi-vendor interoperability and high-density power distribution.
www.turnerandtownsend.com
Turner & Townsend – Data Centre Cost Index 2024 Provides context on the increasing costs associated with data center infrastructure upgrades and expansions.

Advertisement