02jun2026
14:00 Defesa de Mestrado Auditório do IC3
Tema
FaaS-Dask: Rumo a um agendador serverless escalável e financeiramente eficiente para Dask
Aluno
Carlos Eduardo Millani
Orientador / Docente
Edson Borin - Coorientador: Carlos Alberto Astudillo Trujillo
Breve resumo
Workflows científicos para dados em larga escala, como os de processamento sísmico, apresentam desafios significativos para a exploração interativa de dados. Clusters de Computação de Alto Desempenho (HPC) tradicionais submetem frequentemente os usuários a longos tempos de espera em filas, enquanto ambientes de nuvem baseados em Infraestrutura como Serviço (IaaS) podem gerar custos proibitivos devido aos recursos ociosos entre as interações do usuário. Para endereçar o compromisso entre latência e custo, este trabalho apresenta o FaaS-Dask, um agendador de workflows nativo da nuvem baseado no framework Dask. O FaaS-Dask foi projetado para utilizar instâncias serverless de Função como Serviço (FaaS), proporcionando um ambiente escalável e financeiramente eficiente, adequado à natureza esporádica de cargas de trabalho interativas. Esta dissertação detalha a arquitetura e a evolução iterativa do FaaS-Dask. Partindo de uma implementação inicial que substitui os workers locais do Dask por funções serverless, aplicamos uma série de otimizações arquiteturais e no nível do grafo de tarefas. As melhorias arquiteturais incluíram a otimização do mecanismo de despacho de tarefas, migrando de gatilhos assíncronos baseados em filas (AWS SQS) para chamadas de API síncronas de menor latência, e o aprimoramento do desempenho de entrada e saída (E/S) ao transicionar a camada de armazenamento persistente de armazenamento de objetos (AWS S3) para um sistema de arquivos de rede (AWS EFS). Adicionalmente, utilizamos as capacidades de otimização do Dask para modificar o Grafo Acíclico Dirigido (DAG) das tarefas, aplicando inlining de constantes e fusão de tarefas sequenciais, o que reduziu significativamente a sobrecarga associada a invocações de funções e transferências de dados, inerentes ao paradigma stateless do FaaS. Para validar nossa abordagem, realizamos uma avaliação experimental abrangente, comparando múltiplas versões do FaaS-Dask com clusters Dask tradicionais implantados em máquinas virtuais. Utilizando workflows representativos de processamento de dados sísmicos, medimos a latência de execução e o custo total. Os resultados demonstram que as otimizações sucessivas reduziram substancialmente ambas as métricas. A versão final e otimizada do FaaS-Dask alcançou latências comparáveis às de clusters tradicionais, oferecendo uma redução de custo significativa, principalmente pela eliminação de cobranças por tempo ocioso. Este trabalho conclui que um agendador baseado em serverless é uma alternativa viável e eficiente para a exploração interativa de dados científicos, equilibrando eficazmente desempenho e custo.
Banca examinadora
Titulares:
Edson Borin IC/UNICAMP
Lúcia Maria de Assumpção Drummond IC/UFF
Edmundo Roberto Mauro Madeira IC/UNICAMP
Suplentes:
Hervé Cédric Yviquel IC/UNICAMP
Hermes Senger ICMC/USP