Modelagem Preditiva de Energy-Delay Product para Otimização de Submissões em Supercomputadores
Resumo
O consumo de energia em sistemas de Processamento de Alto Desempenho (PAD) tem se tornado um desafio cada vez mais relevante diante do aumento da demanda computacional e da execução de aplicações científicas em larga escala. Fatores relacionados à alocação de recursos, como a quantidade de nós (#N) e o número de threads por nó (#T), impactam diretamente tanto o tempo de execução quanto a eficiência energética, frequentemente avaliada por meio do Energy-Delay Product (EDP). Neste trabalho, propomos uma metodologia baseada no Extra Trees Regressor para recomendar configurações de #N e #T que minimizem o EDP em aplicações paralelas, sem a necessidade de executar a aplicação ou instrumentar seu código. Como estudo de caso, utilizamos a aplicação RAxML e comparamos nossa abordagem com outras quatro estratégias de alocação de recursos em um sistema PAD. Os resultados mostram que a metodologia alcança 81,25% de precisão em relação a melhor estratégia comparada (nosso Oráculo), gerando soluções que diferem, em média, apenas 6,02% do Oráculo e proporcionam uma melhoria de 33,35% no EDP em comparação com a segunda melhor estratégia.
Referências
Carastan-Santos, D., Da Costa, G., Poquet, M., Stolf, P., and Trystram, D. (2024). Light-weight prediction for improving energy consumption in HPC platforms. In Euro-Par, pages 152–165. Springer.
Geurts, P., Ernst, D., and Wehenkel, L. (2006). Extremely randomized trees. Machine Learning, 63(1):3–42.
Grinsztajn, L., Oyallon, E., and Varoquaux, G. (2024). Why do tree-based models still outperform deep learning on typical tabular data? In NeurIPS, NIPS ’22, pages 507–520, Red Hook, NY, USA. ACM, Curran Associates Inc.
Khosravi, A., Sandoval, O. R., Taslimi, M. S., Sahrakorpi, T., Amorim, G., and Garcia Pabon, J. J. (2024). Review of energy efficiency and technological advancements in data center power systems. Energy and Buildings, 323:114834.
Krzywaniak, A., Proficz, J., and Czarnul, P. (2018). Analyzing energy/performance trade-offs with power capping for parallel applications on modern multi and many core processors. In FedCSIS, pages 339–346. IEEE.
Kumar, R., Khatri, S. K., and Diván, M. J. (2022). Performance analysis of machine learning regression techniques to predict data center power usage efficiency. SSRG IJETT, 70(5):328–338.
Kunas, C. A., Rossi, F. D., Luizelli, M. C., Calheiros, R. N., Navaux, P. O. A., and Lorenzon, A. F. (2023). NeurOPar, a neural network-driven edp optimization strategy for parallel workloads. In SBAC-PAD, pages 170–180.
Lorenzon, A. F., Beck, A. C. S., Navaux, P. O., and Messer, B. (2025). Energy-efficient gpu allocation and frequency management in exascale computing systems. In ISC, pages 1–11. Prometeus GmbH.
Maros, A., Almeida, J., Murai, F., da Silva, A. P., Ardagna, D., and Lattuada, M. (2019). Aprendizado de máquina para previsão do tempo de execução de aplicações Spark. In SBRC, pages 197–210, Porto Alegre, RS, Brasil. SBC.
Muralidhar, R., Borovica-Gajic, R., and Buyya, R. (2022). Energy efficient computing systems: Architectures, abstractions and modeling to techniques and standards. ACM Comput. Surv., 54(11s).
Olson, R. D., Assaf, R., Brettin, T., Conrad, N., Cucinell, C., Davis, J. J., Dempsey, D. M., Dickerman, A., Dietrich, E. M., Kenyon, R. W., et al. (2023). Introducing the bacterial and viral bioinformatics resource center (BV-BRC): a resource combining PATRIC, IRD and ViPR. Nucleic acids research, 51(D1):D678–D689.
Papadimitriou, G., Chatzidimitriou, A., and Gizopoulos, D. (2019). Adaptive voltage/frequency scaling and core allocation for balanced energy and performance on multicore CPUs. In HPCA, pages 133–146. IEEE.
Patel, T., Wagenhäuser, A., Eibel, C., Hönig, T., Zeiser, T., and Tiwari, D. (2020). What does power consumption behavior of hpc jobs reveal? : Demystifying, quantifying, and predicting power consumption characteristics. In IPDPS, pages 799–809.
Porto, A. H., Coelho, M., Rocha, H. M., Osthoff, C., Ocaña, K., and Cardoso, D. O. (2026). Assuming the best: Towards a reliable protocol for resource usage prediction for high-performance computing based on machine learning. FGCS, 175:108070.
Schwarzrock, J., Rocha, H. M. G. d. A., Lorenzon, A. F., de Souza, S. X., and Beck, A. C. S. (2025). Integration framework for online thread throttling with thread and page mapping on NUMA systems. JPDC, page 105145.
Stamatakis, A. (2014). RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies. Bioinformatics, 30(9):1312–1313.
