Defesa de Doutorado de Rafael Cardoso Fernandes Sousa

24 nov 2023

14:00 Defesa de Doutorado Auditório do IC3

Relacionado

Tema

Otimização do Particionamento de Tensores para Convolução em NPUs Multicore

Aluno

Rafael Cardoso Fernandes Sousa

Orientador / Docente

Guido Costa Souza de Araújo - Coorientador: Márcio Machado Pereira

Breve resumo

Embora a geração de código para modelos de Redes Neurais Convolucionais (CNNs) tenha sido extensivamente estudada, a realização de divisão eficiente de dados e paralelização para Unidades de Processamento Neural (NPUs) multicore e com memórias internas restritas ainda é um problema desafiador. Dado o tamanho dos tensores de entrada/saída das convoluções e o pequeno espaço das memórias internas das NPUs, minimizar as transações de memória ao mesmo tempo em que se maximiza o paralelismo e a utilização das unidades de multiplicação e acumulação (MAC) são fundamentais para qualquer solução eficaz. Esta tese propõe um passo de otimização no compilador TensorFlow XLA/LLVM para NPUs multicore, chamado Otimização de Divisão de Tensores (TSO), que: (a) maximiza o paralelismo das convoluções e o reuso de memória entre os núcleos das NPUs, (b) maximiza a reutilização de dados em cada núcleo NPU, selecionando a estratégia de agendamento apropriada que minimiza as transferências de dados entre as memórias no chip e a DRAM, e (c) reduz as transferências de dados entre a memória DRAM do hospedeiro (host) e as memórias internas da NPU ao empregar um modelo baseado em rajadas (bursts) de memória DRAM ao avaliar cada solução no espaço de busca, resultando na seleção daquela que oferece o melhor desempenho. Para avaliar a abordagem proposta, foram realizados experimentos usando o Processador Neuromórfico (NMP), uma NPU multicore contendo 32 núcleos RISC-V estendidos com novas instruções de CNN. Os resultados experimentais mostram que o TSO é capaz de identificar a melhor divisão de tensores que minimiza o tempo de execução para um conjunto de modelos de CNN. Acelerações de até 21,7% são observadas ao comparar a técnica baseada em rajada do TSO com uma abordagem de fatiamento de dados sem rajada. Entre as 236 convoluções avaliadas de 6 modelos CNN, o TSO com o modelo de rajadas supera a técnica sem rajadas em 73% delas, alcançando acelerações de até 3,69x. Grande parte da melhoria provém do fato de que o TSO com a técnica baseada em rajada habilitada otimiza o tempo de carga em até 24% e o tempo de armazenamento em até 79% quando comparado à abordagem sem rajadas na execução completa de todo o modelo CNN. Além disso, o TSO com a técnica baseada em rajada foi também comparado a uma abordagem existente que aplica um modelo de custo baseado em um modelo teórico chamado roofline [Motamedi et al., 2016], usado para estimar o desempenho das convoluções. Como resultado, o TSO supera todos os modelos CNN, com acelerações de até 29,2%. Para 84% das convoluções, o TSO alcança acelerações de até 5,19x. O algoritmo também foi adaptado para o framework de Aprendizado de Máquina Glow para validar a generalidade da abordagem TSO. O desempenho dos modelos foi medido tanto nos compiladores Glow quanto TensorFlow XLA/LLVM, revelando resultados similares.

Banca examinadora

Titulares:

Guido Costa Souza de Araújo	IC/UNICAMP
Márcio Bastos Castro	INE/UFSC
Alfredo Goldman vel Lejbman	IME/USP
Hervé Cedric Yviquel	IC/UNICAMP
Lucas Francisco Wanner	IC/UNICAMP

Suplentes:

Sandro Rigo	IC/UNICAMP
Vanderlei Bonato	ICMC/USP
Alexandro José Baldassin	IGCE/UNESP

Defesa de Doutorado de Rafael Cardoso Fernandes Sousa

Relacionado

Notícias

IC abre Concurso Público para Professor Doutor na Área de Inteligência Artificial

IC tem verba para Apoio para Atividades de Extensão em 2025

Chamada para Projetos de Extensão do IC – 1s2025

Parceiros