Analisando Técnicas de Gestão de Energia em Aplicações Aceleradas por GPU em um Sistema Exascale

  • Mariana T. Costa UFRGS
  • Antonio Tadeu A. Gomes LNCC
  • Philippe O. A. Navaux UFRGS
  • Bronson Messer Oak Ridge National Laboratory
  • Arthur F. Lorenzon UFRGS

Resumo


A gestão de energia em sistemas de computação de alto desempenho (HPC) baseados em GPUs é um dos maiores desafios da era Exascale, dada sua influência direta sobre custos operacionais e sustentabilidade ambiental. Entre as técnicas já suportadas pelas arquiteturas modernas, destacam-se o power capping, que limita dinamicamente a potência consumida, e o frequency capping, que impõe tetos estáticos de frequência. Apesar de ambos terem o mesmo objetivo, seus efeitos diferem significativamente conforme o perfil da aplicação, o que torna sua comparação essencial para orientar o uso em escala. Este trabalho apresenta uma avaliação de power capping e frequency capping em três aplicações científicas representativas, executadas no supercomputador Frontier com até 256 GPUs AMD MI250X. Foram exploradas 13 configurações de frequência e 9 limites de potência em cenários de execução em nó único e multinó. Os resultados revelam que: (i) em cargas limitadas por memória, frequency capping em níveis intermediários reduziu o consumo energético em até 25% com impacto inferior a 3% no tempo de execução; (ii) em workloads balanceados entre computação e comunicação, frequency capping manteve desempenho competitivo e superou o power capping em eficiência; e (iii) em cargas intensivas de computação, ambas as técnicas apresentaram ganhos energéticos modestos, mas acompanhados de penalidades significativas de desempenho.

Referências

Acun, F., Zhao, Z., Austin, B., Coskun, A. K., and Wright, N. J. (2024). Analysis of power consumption and gpu power capping for milc. In SC24-W: Workshops of the International Conference for High Performance Computing, Networking, Storage and Analysis, pages 1856–1861.

Allen, T., Feng, X., and Ge, R. (2020). Performance optimization in power-capped gpu computing. SC20. Poster, evaluating miniFE on Titan XP, showing up to 35 % performance loss under default GPU power capping and proposing application-aware SM/memory power allocation.

Angelelli, L., Carastan-Santos, D., and Dutot, P.-F. (2024). Run your hpc jobs innbsp;eco-mode: Revealing thenbsp;potential ofnbsp;user-assisted power capping innbsp;supercomputing systems. In Job Scheduling Strategies for Parallel Processing: 27th International Workshop, JSSPP 2024, San Francisco, CA, USA, May 31, 2024, Revised Selected Papers, page 181–196, Berlin, Heidelberg. Springer-Verlag.

Antici, F., Borghesi, A., Domke, J., and Kiziltan, Z. (2025). Uopc: A user-based online framework to predict job power consumption in hpc systems. In ISC High Performance 2025 Research Paper Proceedings (40th International Conference), pages 1–12.

Atchley, S., Zimmer, C., Lange, J., Bernholdt, D., Melesse Vergara, V., Beck, T., Brim, M., Budiardja, R., Chandrasekaran, S., Eisenbach, M., Evans, T., Ezell, M., Frontiere, N., Georgiadou, A., Glenski, J., Grete, P., Hamilton, S., Holmen, J., Huebl, A., Jacobson, D., Joubert, W., Mcmahon, K., Merzari, E., Moore, S., Myers, A., Nichols, S., Oral, S., Papatheodore, T., Perez, D., Rogers, D. M., Schneider, E., Vay, J.-L., and Yeung, P. K. (2023). Frontier: Exploring exascale. In Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC ’23, New York, NY, USA. Association for Computing Machinery.

Ding, N., Antepara, O., Zhao, Z., Austin, B., Oliker, L., Wright, N. J., and Williams, S. (2025). Maximizing power-constrained supercomputing throughput. In ISC High Performance 2025 Research Paper Proceedings (40th International Conference), pages 1–13.

Habib, S., Morozov, V., Frontiere, N., Finkel, H., Pope, A., and Heitmann, K. (2013). Hacc: Extreme scaling and performance across diverse architectures. In SC ’13: Proceedings of the International Conference on High Performance Computing, Networking, Storage and Analysis, pages 1–10.

Karimi, A. M., Maiterth, M., Shin, W., Sattar, N. S., Lu, H., and Wang, F. (2025). Exploring the frontiers of energy efficiency using power management at system scale. In SC-W, SC-W ’24, page 1835–1844. IEEE Press.

Komoda, T., Hayashi, S., Nakada, T., Miwa, S., and Nakamura, H. (2013). Power capping of cpu-gpu heterogeneous systems through coordinating dvfs and task mapping. In 2013 IEEE 31st International Conference on Computer Design (ICCD), pages 349–356.

Krzywaniak, A., Czarnul, P., and Proficz, J. (2023). Dynamic gpu power capping with online performance tracing for energy efficient gpu computing using depo tool. Future Generation Computer Systems, 145.

Le Sueur, E. and Heiser, G. (2010). Dynamic voltage and frequency scaling: The laws of diminishing returns. In Proceedings of the 2010 international conference on Power aware computing and systems, pages 1–8.

Lorenzon, A. F., Beck, A. C. S., Navaux, P. O. A., and Messer, B. (2025). Energy-efficient gpu allocation and frequency management in exascale computing systems. In ISC High Performance 2025 Research Paper Proceedings (40th International Conference), pages 1–11.

Navaux, P. O. A., Lorenzon, A. F., and Serpa, M. D. S. (2023). Challenges in HighPerformance Computing. Journal of the Brazilian Computer Society, 29(1):51–62.

Omnistat (2025). Omnistat: Scale-out cluster telemetry. Accessed: 2025-07-20.

Patrou, M., Wang, T., Elwasif, W., Eisenbach, M., Miller, R., Godoy, W., and Hernandez, O. (2025). Power-capping metric evaluation for improving energy efficiency in hpc applications.

Simmendinger, C., Marquardt, M., Mäder, J., and Schneider, R. (2024). Powersched managing power consumption in overprovisioned systems. In 2024 IEEE International Conference on Cluster Computing Workshops (CLUSTER Workshops), pages 1–8.

Tapasya, P., Frye, Z., Bhatia, H., Natale, F., Glosli, J., Ingólfsson, H., and Rountree, B. (2019). Comparing gpu power and frequency capping: A case study with the mummi workflow. pages 31–39.

Yiming, W., Hao, M., He, H., Zhang, W., Tang, Q., Sun, X., and Wang, Z. (2024). Drlcap: Runtime gpu frequency capping with deep reinforcement learning. IEEE Transactions on Sustainable Computing, PP:1–15.
Publicado
28/10/2025
COSTA, Mariana T.; GOMES, Antonio Tadeu A.; NAVAUX, Philippe O. A.; MESSER, Bronson; LORENZON, Arthur F.. Analisando Técnicas de Gestão de Energia em Aplicações Aceleradas por GPU em um Sistema Exascale. In: SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 26. , 2025, Bonito/MS. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 386-397. DOI: https://doi.org/10.5753/sscad.2025.16738.