13mar2026
14:00 Defesa de Mestrado Sala 85 do IC
Tema
OpenMP Beyond the Node: Offloading Remoto e Comunicação Escaláveis em Clusters GPU
Aluno
Jhonatan Cléto
Orientador / Docente
Hervé Cédric Yviquel
Breve resumo
Clusters de HPC heterogêneos, compostos por sistemas multinó com aceleradores GPU, tornaram-se a plataforma dominante para aplicações científicas de grande escala e intensivas em dados. Embora o modelo de programação MPI+X seja amplamente adotado nesse contexto, ele impõe uma complexidade significativa aos desenvolvedores, especialmente no que diz respeito ao gerenciamento de comunicação, sincronização, movimentação de dados e balanceamento de carga entre aceleradores distribuídos. Esses desafios reduzem a produtividade e limitam a portabilidade das aplicações. Esta dissertação de mestrado investiga extensões ao modelo de offloading do OpenMP que visam unificar a programação heterogênea de memória compartilhada e distribuída, preservando a simplicidade do OpenMP. A primeira contribuição é o MPI Proxy Plugin (MPP), uma extensão do runtime de Offloading do OpenMP no LLVM que realiza o offloading transparente de regiões target para aceleradores remotos utilizando MPI. Ao explorar operações MPI assíncronas e corrotinas em C++20, o MPP abstrai a troca explícita de mensagens da aplicação, permitindo a sobreposição entre comunicação e computação e possibilitando que programas OpenMP não modificados sejam executados em clusters GPU multinó. Resultados experimentais em sistemas NVIDIA H100 e AMD MI300A demonstram que o MPP alcança escalabilidade quase linear para cargas de trabalho computacionalmente intensivas, atingindo até 63x de aceleração em 64 GPUs, ao mesmo tempo em que evidenciam o impacto dos overheads do runtime e da granularidade das tarefas no desempenho. A segunda contribuição aborda uma limitação fundamental da especificação OpenMP: a ausência de suporte nativo à comunicação coletiva entre múltiplos dispositivos. Este trabalho apresenta a OpenMP Collective Communication Library (OMPCCL), que estende o modelo OpenMP Target com primitivas coletivas portáveis e semântica de grupos de dispositivos. Implementações de Broadcast, All-Reduce, Reduce-Scatter e coletivas relacionadas são avaliadas em um cluster com 64 GPUs, alcançando acelerações de até 5x em relação a abordagens ingênuas. Os resultados também analisam a influência da topologia de rede no desempenho das coletivas e fornecem diretrizes práticas para a implementação eficiente de operações coletivas em ambientes GPU distribuídos. De forma geral, este trabalho demonstra que a extensão do OpenMP com offloading remoto em nível de runtime e comunicação coletiva entre multiplos dispositivos é um caminho viável para simplificar o desenvolvimento de aplicações heterogêneas escaláveis. As abordagens propostas reduzem a complexidade de programação ao mesmo tempo em que oferecem desempenho competitivo quando comparadas a soluções tradicionais baseadas em MPI+OpenMP, contribuindo para um modelo de programação unificado e portável para sistemas de HPC de próxima geração.
Banca examinadora
Titulares:
| Hervé Cédric Yviquel | IC/UNICAMP |
| Rodolfo Jardim de Azevedo | IC/UNICAMP |
| Lucas Mello Schnorr | INF/UFRGS |
Suplentes:
| Edson Borin | IC/UNICAMP |
| Arthur Francisco Lorenzon | INF/UFRGS |