Defesa de Mestrado Marcos Vinícius Guimarães Martins Filho

11 mai 2020

16:00 Defesa de Mestrado Integralmente a distância

Relacionado

Tema

A Task-Parallel Approach for Neural Networks

Aluno

Marcos Vinícius Guimarães Martins Filho

Orientador / Docente

Guido Costa Souza de Araujo

Breve resumo

Redes Neurais e Aprendizagem Profunda têm se sobressaído em diversas áreas, que vão desde o reconhecimento de imagens e detecção de objetos à geração de música. Todo este sucesso contribuiu para pervasividade destas técnicas, com uma demanda sempre crescente para que aplicações que as utilizem sejam executadas em dispositivos tão diversos quanto smart watches e super clusters. Considerando que a etapa de treinamento é computacionalmente mais significativa que a de inferência, é natural que o foco de pesquisas na área de otimização seja na busca por melhorias no tempo de treinamento. Não obstante, à medida que aplicações baseadas em redes neurais começaram a ser utilizadas na borda da rede, tanto o meio acadêmico quanto a indústria intensificaram a pesquisa e o desenvolvimento de técnicas que objetivam otimizar a execução da etapa de inferência, como a troca de pequenas margens de acurácia por modelos menores (como a Mobilenet, por exemplo) ou consumo reduzido de memória e eficiência computacional (quantização, por exemplo). No entanto, uma área que continua pouco explorada é o uso de paralelismo de modelo, ou seja, a possibilidade de se executar várias operações da rede neural ao mesmo tempo, a fim de melhorar o tempo gasto na inferência. Apesar de suportada pelos principais frameworks de aprendizagem profunda, esta técnica só é utilizada durante o treinamento de modelos muito grandes, cujos parâmetros não cabem na memória de um único dispositivo e, por isso, precisam ser divididos em vários nós de um cluster (potencialmente heterogêneo). Além disso, geralmente recai sobre o desenvolver a responsabilidade de determinar como as operações paralelas do modelo serão divididas através destes nós. Este trabalho propõe uma nova abordagem para a utilização do paralelismo de modelo durante a etapa de inferência. Sua ideia central é explorar a correspondência entre um grafo de fluxo de dados - uma abstração comum para a representação de modelos de redes neurais - e um grafo de tarefas, e utilizar o runtime de escalonamento de tarefas para permitir que as operações paralelas de uma rede neural emerjam naturalmente. Este trabalho utiliza como base o TensorFlow XLA, um compilador de domínio específico para redes neurais que é capaz de gerar código binário altamente otimizado e customizado para uma plataforma específica a partir do modelo de uma rede neural treinada. A forma como o XLA gera esse código foi modificada para que o runtime de escalonamento de tarefas da implementação de OpenMP do Clang fosse utilizado. Dessa forma, ao executar cada operação da rede através de uma tarefa, o paralelismo presente no modelo é naturalmente traduzido pela forma como um grafo de fluxo de dados representa suas dependências na forma de tensores. A abordagem proposta neste trabalho foi avaliada em dois modelos diferentes da família Inception de redes neurais, cujo objetivo é o reconhecimento de imagens. Speed-ups de 11.16% e 12.42% foram obtidos para as redes Inception-v3 e Inception-v4, respectivamente, o que demonstra que o paralelismo de modelo é uma estratégia promissora para a otimização do tempo de inferência de redes neurais.

Banca examinadora

Titulares:

Guido Costa Souza de Araujo	IC/UNICAMP
Emilio de Camargo Francesquini	CMCC/UFABC
Marcio Machado Pereira	IC/UNICAMP

Suplentes:

Mário Lúcio Côrtes	IC/UNICAMP
Alexandro José Baldassin	IGCE/UNESP

Defesa de Mestrado Marcos Vinícius Guimarães Martins Filho

Relacionado

Notícias

IC divulga o selecionado para PPPD – 3º Edital 2024

Concurso público de provas e títulos na área Arquitetura de Computadores tem data divulgada.

Laboratório de Sistemas de Computação (LSC) do IC-UNICAMP tem vaga para Pós-Doutor

Parceiros