Análise e Comparação de Estratégias de Implementação Física de Multiplicadores Matriciais
Resumo
Este trabalho apresenta uma comparação experimental de três arquiteturas de unidades de multiplicação de matrizes 4×4: paralela, multiciclo e pipeline, implementadas em RTL e sintetizadas para uma placa FPGA Cyclone IV. Motivados pela importância da multiplicação matricial para aplicações de IA e insatisfeitos com resultados de sistemas não especializados, visamos investigar alternativas para um modelo dedicado a operações matriciais. Incluímos uma explicação do funcionamento dos modelos e uma comparação dos resultados da síntese com foco em área e frequência máxima obtidos a fim de avaliar o desempenho de cada um dos modelos em um fluxo contínuo de operações. Nossos resultados mostram que o modelo paralelo utiliza 31,91% mais elementos lógicos que o multiciclo com uma redução de 16,37% na frequência de operação, exigindo 60% da largura de banda de dados necessária para o modelo pipeline. Isso sugere um melhor equilíbrio entre área, latência e largura de banda do modelo paralelo em comparação aos demais.Referências
Altera Corporation (2016). Cyclone IV Device Handbook, Volume 3. Altera Corporation, San Jose, CA. Altera Publication Number: CYIV-53001-2.1.
Ansari, M. Q. and Ansari, M. Q. (2025). Racing to idle: Energy efficiency of matrix multiplication on heterogeneous cpu and gpu architectures.
Giasemis, F. I., Lončar, V., Granado, B., and Gligorov, V. V. (2025). Comparative analysis of fpga and gpu performance for machine learning-based track reconstruction at lhcb.
Kelefouras, V., Kritikakou, A., Mporas, I., and Kolonias, V. (2016). A high-performance matrix–matrix multiplication methodology for cpu and gpu architectures. The Journal of supercomputing, 72(3):804–844.
Liu, Y., Chen, R., Li, S., Yang, J., Li, S., and da Silva, B. (2024). Fpga-based sparse matrix multiplication accelerators: From state-of-the-art to future opportunities. ACM Transactions on Reconfigurable Technology and Systems, 17(4):1–37.
LowRISC (2025). Ibex risc-v core documentation. Version latest (as of 2025-08-06).
McKinsey & Company (2024). The State of AI in Early 2024. Report, McKinsey & Company.
Pirova, A., Vodeneeva, A., Kovalev, K., Ustinov, A., Kozinov, E., Liniov, A., Volokitin, V., and Meyerov, I. (2026). Performance optimization of blas algorithms with band matrices for risc-v processors. Future Generation Computer Systems, 174:107936.
Song, L., Chi, Y., Guo, L., and Cong, J. (2022). Serpens: A high bandwidth memory based accelerator for general-purpose sparse matrix-vector multiplication. In Proceedings of the 59th ACM/IEEE design automation conference, pages 211–216.
Stothers, A. J. (2010). On the Complexity of Matrix Multiplication. PhD thesis, The University of Edinburgh. Doctoral thesis, School of Mathematics.
Ansari, M. Q. and Ansari, M. Q. (2025). Racing to idle: Energy efficiency of matrix multiplication on heterogeneous cpu and gpu architectures.
Giasemis, F. I., Lončar, V., Granado, B., and Gligorov, V. V. (2025). Comparative analysis of fpga and gpu performance for machine learning-based track reconstruction at lhcb.
Kelefouras, V., Kritikakou, A., Mporas, I., and Kolonias, V. (2016). A high-performance matrix–matrix multiplication methodology for cpu and gpu architectures. The Journal of supercomputing, 72(3):804–844.
Liu, Y., Chen, R., Li, S., Yang, J., Li, S., and da Silva, B. (2024). Fpga-based sparse matrix multiplication accelerators: From state-of-the-art to future opportunities. ACM Transactions on Reconfigurable Technology and Systems, 17(4):1–37.
LowRISC (2025). Ibex risc-v core documentation. Version latest (as of 2025-08-06).
McKinsey & Company (2024). The State of AI in Early 2024. Report, McKinsey & Company.
Pirova, A., Vodeneeva, A., Kovalev, K., Ustinov, A., Kozinov, E., Liniov, A., Volokitin, V., and Meyerov, I. (2026). Performance optimization of blas algorithms with band matrices for risc-v processors. Future Generation Computer Systems, 174:107936.
Song, L., Chi, Y., Guo, L., and Cong, J. (2022). Serpens: A high bandwidth memory based accelerator for general-purpose sparse matrix-vector multiplication. In Proceedings of the 59th ACM/IEEE design automation conference, pages 211–216.
Stothers, A. J. (2010). On the Complexity of Matrix Multiplication. PhD thesis, The University of Edinburgh. Doctoral thesis, School of Mathematics.
Publicado
28/10/2025
Como Citar
AGUIAR, Rafael R. de; FELZMANN, Isaías.
Análise e Comparação de Estratégias de Implementação Física de Multiplicadores Matriciais. In: WORKSHOP DE INICIAÇÃO CIENTÍFICA - SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 26. , 2025, Bonito/MS.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 17-24.
DOI: https://doi.org/10.5753/sscad_estendido.2025.15856.
