El futuro de los data centers: enfriamiento estratégico para la era de la IA


Durante casi cuatro décadas, las mejoras en el rendimiento de los data centers vinieron de un único lugar: los transistores más pequeños. La Ley de Moore y la escala de Dennard hicieron el trabajo. Cada nueva generación de silicio entregaba más rendimiento manteniendo o reduciendo la potencia, y el aspecto térmico era, más bien, un problema de mantenimiento que un limitante de rendimiento.

El enfriamiento pasaba a un segundo plano. Los operadores medían su avance a través del PUE, optimizaban cuando era conveniente y, de lo contrario, lo trataban como un coste adicional.

Ese mundo terminó. Dennard dejó de escalar hace años, las ganancias de eficiencia de los transistores se están estabilizando, y las TDP de los aceleradores de IA han aumentado de 700 vatios en la generación H100 a más de 1.400 vatios en las implementaciones actuales de Blackwell, con la plataforma Rubin de NVIDIA esperándose para impulsar aún más.

El aspecto térmico ya no es algo que ocurre después de las decisiones arquitectónicas. Ahora es la limitación vinculante sobre cuánta rendimiento puede sostener un chip, y se está convirtiendo en una de las decisiones más estratégicas que un operador de data center de IA puede tomar.

Por qué esto importa ahora

Los números macro explican por qué importa ahora. Los data centers ya consumen hasta un 4,5 por ciento de la producción eléctrica total de EE. UU., una cifra que se proyecta alcance el 12 por ciento para 2028. McKinsey estima que el gasto global en data centers podría acercarse a 7 billones de dólares para 2030, y que la demanda de energía de estos centros alcanzará los 220 gigavatios en ese mismo periodo.

Ninguno de estos incrementos de capacidad llega de inmediato. Las nuevas líneas de transmisión y subestaciones requieren de cinco a diez años para permisos y construcción, lo que significa que los operadores no pueden pedir más energía de forma instantánea cuando necesitan escalar.

El resultado es una presión fuerte para extraer el máximo rendimiento de la potencia ya contratada. Esa presión es lo que está reformando la forma en que la industria piensa el enfriamiento.

El enfriamiento ya no es solo una tarea secundaria

Durante años, el enfriamiento se midió como una pérdida de eficiencia, capturada a través de métricas como el PUE, que cuantificaba cuánta energía se gastaba en overhead antes de llegar a la carga IT. Hoy, la métrica más significativa es cuánta computación útil se extrae por unidad de potencia. El CEO de NVIDIA, Jensen Huang, describe esto como “rendimiento por vatio” o “tokens por vatio” para cargas de IA, y el enfriamiento juega un papel directo en ambas mitades de esa ecuación.

El enfriamiento directo al chip se ha convertido en la norma porque elimina el calor de forma mucho más efectiva que el aire. Pero incluso el enfriamiento directo al chip está llegando a su límite frente a aceleradores de 1.000+ vatios, y la mayoría de las implementaciones actuales aún requieren agua de la instalación en torno a 30 grados Celsius para mantenerse dentro de los rangos ASHRAE W2 y W3, lo que implica que los chillers deben funcionar durante gran parte del año en climas cálidos.

Una gestión térmica mejorada tiene efectos en ambos lados de la ecuación tokens-por-vatio. Reduce la overhead de la instalación, de modo que más de la potencia contratada llega al rack. Y permite que los chips operen más cerca de su margen térmico completo, manteniendo un mayor rendimiento durante más tiempo.

Esos beneficios se acumulan. Un estudio reciente de UCLA mostró que combinar una mejora del 17 por ciento en la eficiencia de la instalación con un aumento del 15 por ciento en el rendimiento por vatio a nivel de servidor gracias a una mejor gestión térmica se traduce en aproximadamente un 35 por ciento más de tokens por vatio dentro de la misma envolvente de potencia. En una instalación de 10 megavatios, eso representa más de un megavatio de capacidad de cómputo usable adicional, sin contratación de red adicional.

En el GTC 2026, el CEO de NVIDIA, Jensen Huang, afirmó explícitamente este punto. Señaló que más allá de la hoja de ruta del silicio, la optimización a nivel de infraestructura en energía y enfriamiento representa todavía otro factor de dos en rendimiento por medir. “No hay duda en mi mente de que hay un factor de dos aquí, y un factor de dos a la escala de la que estamos hablando es gigantesco”, dijo.

Ese rendimiento no proviene de un transístor más pequeño. Proviene de repensar cómo la energía y el calor se mueven a través del rack. Un estudio reciente de UCLA sugiere que al menos un tercio de esa ganancia a nivel de infraestructura se atribuye específicamente al enfriamiento. El enfriamiento ya no es una función de apoyo. Es una palanca principal de rendimiento.

El agua se está convirtiendo en una restricción seria

La energía no es el único punto de presión. El agua emerge como una restricción igualmente crítica y a menudo más inmediata en la expansión de los data centers. Las arquitecturas de enfriamiento tradicionales a menudo dependen de procesos evaporativos que consumen grandes cantidades de agua. Según el Environmental and Energy Study Institute, los grandes data centers pueden usar hasta 5 millones de galones por día, comparable al consumo diario de agua de un pueblo de 10.000 a 50.000 personas.

Esto está llamando la atención de reguladores y comunidades en áreas ya con poca agua. El resultado son ciclos de permisos más largos, mayor riesgo de proyecto y, en algunos casos, la pausa total de nuevos desarrollos. Estados y municipios también están implementando requisitos de reporte más estrictos y ajustando las estructuras de tarifas eléctricas específicamente para data centers.

Los operadores ahora deben considerar el agua junto con la energía al seleccionar sitios. Instalaciones que minimicen el desperdicio de energía y reduzcan o eliminen el consumo de agua están mejor posicionadas para navegar este entorno.

El cambio hacia una refrigeración de próxima generación

En respuesta, la industria entra en una nueva fase de innovación en enfriamiento. El enfriamiento por aire ya no es suficiente para cargas de IA de alta densidad. El enfriamiento líquido se ha convertido en la base, pero dentro de la refrigeración líquida no todos los enfoques entregan la misma eficiencia o escalabilidad.

La próxima ola de innovación se centra en mejorar la transferencia de calor en la fuente: eliminar de forma más eficaz la energía térmica a nivel de chip mientras se reduce la sobrecarga en todo el sistema. Algunos enfoques se inspiran en técnicas de transferencia de calor refinadas en otras industrias de alta densidad de energía, como la generación de energía nuclear, donde el desafío de mover grandes cantidades de calor desde un espacio físico limitado se ha estudiado durante décadas.

El objetivo es claro. Una mejor refrigeración permite mayor densidad de racks, permite operar a temperaturas de agua de instalación más altas y reduce o elimina la dependencia de la expulsión de calor que usa mucha agua. Del mismo modo de importante, la próxima generación de arquitecturas de enfriamiento se está diseñando para integrarse con las infraestructuras existentes de centros de datos, para que los operadores puedan evolucionar su infraestructura sin tener que reconstruirla desde cero.

La plataforma Vera Rubin de NVIDIA, anunciada en CES 2026, fue una señal clara de hacia dónde va esto. Vera Rubin está diseñada para agua de suministro a 45 grados Celsius, lo que significa que los enfriadores secos pueden hacer la mayor parte de la expulsión de calor durante todo el año y los enfriadores mecánicos se vuelven opcionales en la mayoría de los climas. Eso representa un cambio fundamental en la forma en que se diseñará la infraestructura de enfriamiento para la próxima década.

Un momento definitorio para el diseño de data centers

La industria de data centers se encuentra en un punto de inflexión. La demanda de computación de IA se acelera, y cada recurso necesario para soportarla —energía, agua, espacio físico— se vuelve más difícil de asegurar. El enfriamiento está en la intersección de los tres.

Determina cuánta energía se usa de manera eficiente, cuánta agua se consume y, en última instancia, dónde se puede desplegar la infraestructura. Los operadores que reconozcan esto ahora tendrán una ventaja sostenida. La pregunta de: cómo mantener los data centers frescos ante la presión de las cargas de IA se ha convertido en una de las decisiones más estratégicas de la infraestructura moderna.

Este artículo fue producido como parte de TechRadar Pro Perspectives, nuestra vía para presentar las mentes más brillantes de la industria tecnológica hoy en día.

from Latest from TechRadar https://ift.tt/2q3UTIw
via IFTTT IA