tech 5 min • intermediate

Alta Densidad de Potencia: Redefiniendo la Infraestructura del Centro de Datos

Logrando Potencia de Alta Densidad Segura y Eficiente para Cargas de Trabajo de IA

Por AI Research Team
Alta Densidad de Potencia: Redefiniendo la Infraestructura del Centro de Datos

Alta Densidad de Energía: Redefiniendo la Infraestructura del Centro de Datos

Lograr una Energía de Alta Densidad Segura y Eficiente para Cargas de Trabajo de IA

El panorama tecnológico está experimentando un cambio sísmico con el meteórico ascenso de las cargas de trabajo de inteligencia artificial (IA), obligando a los centros de datos de todo el mundo a repensar la infraestructura desde cero. Es una transformación impulsada por las inmensas demandas computacionales de los modelos de IA a gran escala, que requieren densidades inimaginables hace solo unos años. ¿Cómo pueden los centros de datos satisfacer estas demandas crecientes de manera segura y eficiente? Esta pregunta está impulsando la innovación en los dominios eléctrico, térmico y mecánico en el diseño de centros de datos.

El Desafío de la Densidad de Energía Impulsada por IA

Las tareas modernas de inteligencia artificial y aprendizaje automático (ML) requieren una potencia computacional inmensa, congregando numerosos aceleradores GPU en un solo rack. Esta concentración de hardware puede empujar las densidades de potencia en los centros de datos desde un convencional de 30 kW por rack hasta un intenso de 200 kW o más. A medida que los dispositivos aumentan su rendimiento, también generan una cantidad asombrosa de calor, llevando más allá de sus límites a los métodos tradicionales de refrigeración por aire.

La generación actual de aceleradores de IA, como el H100 de NVIDIA y el Instinct MI300X de AMD, cada uno consume más de 700 vatios. Esto requiere una reevaluación fundamental de las soluciones de refrigeración y distribución de energía dentro de los centros de datos para acomodar efectivamente estas intensidades de potencia y térmicas.

Soluciones Innovadoras de Refrigeración

Refrigeración Líquida: La Vanguardia de la Gestión Térmica

Para manejar la salida térmica de racks de alta densidad, muchos operadores están recurriendo a soluciones de refrigeración líquida. La refrigeración directa al chip (DTC) se está convirtiendo en una opción popular, lo que implica acoplar placas frías refrigeradas por líquido directamente a componentes intensivos en recursos como CPUs y GPUs. Este método disipa efectivamente el calor en la fuente, ofreciendo potencialmente densidades de potencia de racks de 60-120+ kW.

La refrigeración por inmersión es otra opción cada vez más atractiva, especialmente para densidades extremas. Implica sumergir racks de servidores enteros en fluidos dieléctricos, mejorando significativamente la gestión térmica y potencialmente logrando valores PUE tan bajos como 1.05. Sin embargo, la refrigeración por inmersión exige cambios extensos en los procesos de servicio y una evaluación exhaustiva de las cadenas de suministro de fluidos.

Mejora del Aire y Intercambiadores de Calor en Puerta Trasera

Si bien la refrigeración líquida ofrece una eficiencia térmica impresionante, muchos centros de datos existentes deben adaptarse sin descartar las infraestructuras actuales. Los intercambiadores de calor en puerta trasera (RDHx) ofrecen una solución intermedia. Estos sistemas se acoplan a los exteriores del rack y extraen el calor antes de que se infiltre en toda la sala de datos, soportando densidades de rack de hasta 90 kW. Las técnicas de aire mejorado, incluidas las sofisticadas estrategias de contención, siguen siendo viables para renovar espacios bajo los 30 kW por rack, aunque ofrecen un margen de crecimiento limitado.

Entrega de Energía: Repensando la Infraestructura Eléctrica

La necesidad de una distribución de energía eficiente es crítica a medida que las demandas de energía aumentan. Las estrategias emergentes que favorecen la energía trifásica de 415/240 V y los ecosistemas de 48 V DC están convirtiéndose en la norma en ambientes de alta densidad. Estos sistemas reducen las pérdidas de transmisión y acomodan corrientes más altas mediante innovaciones como estanterías de energía de acople ciego y colectores de líquido integrados, optimizando así tanto el espacio como la eficiencia.

Adoptar la modularidad con componentes prefabricados permite un rápido despliegue y se alinea con el uso sostenible de energía. La prefabricación puede recortar los tiempos de construcción de los tradicionales de varios años a meros meses, ayudando a cumplir con los cronogramas de despliegue rápido necesarios para las crecientes necesidades de IA.

Encontrando el Equilibrio: Modularidad y Sostenibilidad

Los módulos de centro de datos prefabricados y las cápsulas de GPU en contenedores representan un enfoque ágil para expandir la capacidad de la infraestructura. Esta modularidad mejora la flexibilidad en términos de despliegue y expande la capacidad en sitios restringidos sin cambios operacionales masivos. Del mismo modo, la adopción de estándares abiertos como el Open Rack V3 (ORV3) y Soluciones Avanzadas de Refrigeración (ACS) del Open Compute Project facilita la integración más sencilla en entornos multi-vendedor.

La sostenibilidad también ocupa un hilo central en estos nuevos diseños. La refrigeración líquida emparejada con economizadores de aire reduce notablemente el consumo de energía y agua, logrando cifras PUE conducentes a los objetivos de eficiencia modernos. Notablemente, empresas como Meta y Amazon han comenzado a mostrar exitosos esfuerzos de recuperación de calor, reutilizando el calor residual para alimentar sistemas de calefacción distrital, lo que ejemplifica un paso significativo hacia los objetivos de carbono neutral.

Conclusión: Un Camino a Seguir

La trayectoria de la tecnología de centros de datos subraya un claro cambio hacia la adaptación de densidades de energía más altas a través de una gestión térmica innovadora y soluciones de energía eficientes. La refrigeración directa al chip, la refrigeración por inmersión y los sistemas modulares prefabricados jugarán roles fundamentales en esta evolución, combinando las demandas de alto rendimiento con los imperativos de sostenibilidad y eficiencia. Al alinear la selección de refrigeración con las estrategias de distribución de energía e integrar estándares abiertos, los centros de datos pueden manejar los desafíos de las crecientes demandas de la IA, logrando en última instancia un equilibrio entre rendimiento y sostenibilidad necesario para el futuro.

Fuentes y Referencias

www.ashrae.org
ASHRAE Datacom Series (incl. Liquid Cooling Guidelines) Provides guidelines for implementing liquid cooling systems, essential for handling high-density power in AI-driven data centers.
uptimeinstitute.com
Uptime Institute Global Data Center Survey 2023 (PUE trends) Offers insights into current energy efficiency trends in data centers, relevant for understanding shifts in cooling solutions.
www.nvidia.com
NVIDIA H100 Data Center GPU An example of high power consumption GPUs driving increased data center power density requirements.
www.amd.com
AMD Instinct MI300X Highlights the power demands of modern AI accelerators that influence cooling and power infrastructure decisions.
www.vertiv.com
Vertiv – Liquid Cooling for Data Centers Discusses the advantages and challenges of implementing liquid cooling solutions in data centers, vital for high-density setups.
submer.com
Submer – Immersion Cooling Technologies Explains immersion cooling technologies, relevant for maximizing density and efficiency in data centers.
www.stulz.com
STULZ – CyberRack Rear Door Cooling Describes the rear-door heat exchanger solution, applicable for retrofitting existing data center spaces.
about.fb.com
Meta – Odense Data Center Heat Recovery An example of successful heat reuse in data centers, supporting sustainable operations.
aws.amazon.com
AWS – Delivering District Heating in Ireland Provides an example of how data centers can contribute to sustainability through heat recovery.
www.opencompute.org
Open Compute Project – Open Rack V3 (ORV3) Details open standards critical for facilitating multi-vendor interoperability and high-density power distribution.
www.turnerandtownsend.com
Turner & Townsend – Data Centre Cost Index 2024 Provides context on the increasing costs associated with data center infrastructure upgrades and expansions.

Advertisement