ia consumo eléctrico

La carrera por gestionar el consumo eléctrico de los centros de datos y la IA

La Comisión Federal Reguladora de Energía de Estados Unidos rechazó en noviembre de 2024 la solicitud de Amazon para comprar otros 180 megavatios directamente de la central nuclear de Susquehanna, argumentando que dicha operación distorsionaría el funcionamiento del sistema eléctrico al privilegiar a un solo usuario frente a los demás. En este aspecto, se pone de manifiesto una situación que lleva a la comunidad técnica a replantear la administración de la energía en los centros de datos. Según declaró Mark Christie, comisionado de la FERC, la demanda del consumo eléctrico, estable durante casi dos décadas, ahora experimenta un ascenso acelerado, en parte a causa de la creciente necesidad de recursos para ejecutar modelos de IA cada vez más sofisticados.

La historia se remonta a 2012, cuando investigadores de la Universidad de Toronto presentaron AlexNet para el concurso ImageNet LSRVC. En aquel entonces, se apostó por una red neuronal de gran escala, compuesta por más de 60 millones de parámetros y 650 mil neuronas, cuya magnitud obligó a distribuir el proceso de entrenamiento entre dos GPU debido a las limitaciones de las tarjetas gráficas disponibles. Este logro permitió mostrar la capacidad de los modelos de IA, permitiendo que, a partir de ese momento, se empleara un mayor número de GPU en paralelo, tendencia que se consolidó con el tiempo y que impulsó el desarrollo de soluciones informáticas más robustas.

Durante la siguiente década, los chips destinados a centros de datos, sobre todo los de Nvidia, se volvieron aproximadamente 15 veces más eficientes gracias a nuevo hardware como en optimización de software. Sin embargo, la aparición de modelos basados en transformadores, ejemplificados por ChatGPT en 2022, aceleró de forma drástica el consumo energético, haciendo que el entrenamiento de estos sistemas requiriese recursos sin precedentes. Se ha estimado que el entrenamiento de un modelo avanzado pudo haber demandado el uso continuo de 25 000 GPU Nvidia Ampere durante 100 días, una operación que consume alrededor de 50 GW-hora, situación que explica el ascenso de la energía consumida en centros de datos en EE. UU., de 76 TWh en 2018 a 176 TWh en 2023.

Para mitigar este aumento, investigadores han explorado técnicas que optimicen tanto la estructura de los modelos como la manera en que se distribuye el trabajo entre las GPU. Una de las primeras estrategias fue la poda, que consiste en eliminar innecesarios parámetros de un modelo ya entrenado, y la cuantificación, que reduce el formato de los datos para ahorrar memoria y acelerar cálculos. Adicionalmente, se desarrolló una herramienta llamada Perseus, que regula la velocidad de procesamiento de cada GPU en un clúster para que todas finalicen sus tareas al mismo ritmo, logrando así una reducción de hasta el 30 % en el consumo global de energía sin afectar el rendimiento final.

Consumo eléctrico de las IA

Mientras tanto, varios estudios han proyectado que la demanda anual de electricidad de los centros de datos en EEUU podría alcanzar cifras entre 325 y 580 TWh para 2028, representando una proporción considerable del consumo total nacional. Algunas regiones, como Virginia o Irlanda, se han convertido en núcleos en los que la asignación de electricidad se concentra en instalaciones de este tipo, lo que añade una dimensión adicional a la problemática. La ejecución de modelos de IA de gran escala, como los utilizados en ChatGPT, consume aproximadamente el 12 % de la energía de estos centros, cifra que podría modificarse si empresas como Google deciden integrar de manera intensiva soluciones conversacionales.

Las comparaciones energéticas han llevado a afirmar que una búsqueda convencional en Google requiere alrededor de 0,3 vatios, mientras que una consulta en ChatGPT alcanza los 2,9 vatios, estimación que sugiere que las búsquedas asistidas por inteligencia artificial consumen diez veces más electricidad. No obstante, expertos como Mosharaf Chowdhury y Jae-Won Chung ponen en entredicho la veracidad de estas cifras, argumentando que los datos publicados se basan en estimaciones y suposiciones sin suficiente contraste experimental. La única información oficial de estos valores procede en parte de fuentes de relaciones públicas y de declaraciones aisladas de ejecutivos, lo que deja dudas sobre la exactitud de dichos números.

Ante esta incertidumbre, la Iniciativa ML Energy desarrolló un procedimiento de medición riguroso, abandonando el uso del TDP para evaluar el consumo de energía de las GPU y empleando, en su lugar, herramientas como ZeusMonitor, que permite medir el consumo en tiempo real. Las pruebas realizadas con las GPU A100 y H100 de Nvidia han ofrecido datos interesantes; por ejemplo, el modelo Llama 3.1 405B, de código abierto, consumió aproximadamente 3352,92 julios por solicitud en dos GPU H100, mientras que otros modelos lograron reducir el consumo mediante técnicas de optimización que ajustan la asignación de recursos en función de la carga de trabajo.

A tener en cuenta

La falta de transparencia por parte de empresas como Google y Open AI, que no comparten cifras detalladas sobre el uso energético de sus sistemas, dificulta que los investigadores puedan establecer una valoración precisa del consumo real. Mientras tanto, se estudian nuevas alternativas tecnológicas, como el uso de aceleradores específicos dentro de las GPU, el desarrollo de chips fotónicos que procesen datos a la velocidad de la luz y la exploración de semiconductores 2D, que permitirían incrementar la densidad de cálculo en una misma superficie. Aunque todo parece indicar que se cuentan con herramientas para abordar la creciente demanda de energía, algunos especialistas afirman que, si bien estas mejoras son bienvenidas, la propia optimización puede terminar incentivando el uso excesivo, recordando con un toque de humor que “cuando uno cree haberlo visto todo, siempre hay algo más a vuelta de la esquina”.


Deja un comentario