Uma proposta de monitoramento hierárquico e em anel utilizando heartbeat para a biblioteca DeLIA

  • Cleverson Pereira da Silva MACKENZIE
  • Gustavo Teixeira dos Santos MACKENZIE
  • João Victor Silva Mota MACKENZIE
  • Calebe de Paula Bianchini MACKENZIE

Resumo


Sistemas de Computação de Alto Desempenho são essenciais para aplicações científicas e industriais que demandam elevada capacidade de processamento e alta disponibilidade. Para garantir a continuidade das aplicações mesmo em cenários adversos, a biblioteca DeLIA fornece mecanismos de tolerância a falhas por meio de técnicas como heartbeat e checkpoint/restart. No entanto, sua atual arquitetura de monitoramento centralizado introduz um ponto único de falha, comprometendo a resiliência do sistema. Este trabalho propõe uma nova arquitetura distribuída para a DeLIA, estruturada em uma topologia em anel com suporte a super-pares. A proposta distribui as responsabilidades de monitoramento entre os nós, eliminando a dependência de um único processo. A metodologia adotada inclui o redesenho do sistema, a reestruturação da comunicação via heartbeat e a definição de critérios para a promoção de super-pares.

Referências

Bosilca, G., Bouteiller, A., Guermouche, A., Hérault, T., Robert, Y., Sens, P., and Dongarra, J. (2017). A Failure Detector for HPC Platforms. Research Report RR-9024, INRIA.

Chetan, S., Ranganathan, A., and Campbell, R. (2005). Towards fault tolerance pervasive computing. IEEE Technology and Society Magazine, 24(1):38–44.

Di Francia Rosso, P. H. and Francesquini, E. (2022). Ocftl: An mpi implementation-independent fault tolerance library for task-based applications. In Gitler, I., Barrios Hernández, C. J., and Meneses, E., editors, High Performance Computing, pages 131–147, Cham. Springer International Publishing.

Egwutuoha, I. P., Levy, D., Selic, B., and Chen, S. (2013). A survey of fault tolerance mechanisms and checkpoint/restart implementations for high performance computing systems. The Journal of Supercomputing, 65:1302–1326.

Herault, T. and Robert, Y. (2015). Fault-Tolerance Techniques for High-Performance Computing. Springer Publishing Company, Incorporated, 1st edition.

Kerrisk, M. (2010). The Linux programming interface: a Linux and UNIX system programming handbook. No Starch Press.

Netto, M. A. S., Calheiros, R. N., Rodrigues, E. R., Cunha, R. L. F., and Buyya, R. (2018). Hpc cloud for scientific and business applications: Taxonomy, vision, and research challenges. ACM Computing Surveys, 51(1):1–29.

Prakash, S., Vyas, V., and Bhola, A. (2019). Proactive fault tolerance using heartbeat strategy for fault detection. no, 1:4927–4932.

Santana, C., Araújo, R. C., Sardina, I. M., Ítalo A.S. Assis, Barros, T., Bianchini, C. P., de S. Oliveira, A. D., de Araújo, J. M., Chauris, H., Tadonki, C., and de Souza, S. X. (2024). Delia: A dependability library for iterative applications applied to parallel geophysical problems. Computers & Geosciences, 191:105662.

Silva, C., Santos, G., Mota, J., and Bianchini, C. (2025a). Uma proposta de monitoramento hierárquico utilizando heartbeat em sistemas de computação de alto desempenho. In Anais da XVI Escola Regional de Alto Desempenho de São Paulo, pages 13–16, Porto Alegre, RS, Brasil. SBC.

Silva, C. P. d., Santos, G. T. d., and Mota, J. V. S. (2025b). Uma proposta de monitoramento hierárquico utilizando heartbeat em sistemas de computação de alto desempenho.

van Steen, M. and Tanenbaum, A. S. (2024). Distributed Systems. Maarten van Steen, 4th edition.
Publicado
28/10/2025
SILVA, Cleverson Pereira da; SANTOS, Gustavo Teixeira dos; MOTA, João Victor Silva; BIANCHINI, Calebe de Paula. Uma proposta de monitoramento hierárquico e em anel utilizando heartbeat para a biblioteca DeLIA. In: WORKSHOP DE INICIAÇÃO CIENTÍFICA - SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 26. , 2025, Bonito/MS. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 113-120. DOI: https://doi.org/10.5753/sscad_estendido.2025.16784.