Defesa de Doutorado de Lucas Augusto Montalvão Costa Carvalho

Título do Trabalho
Reprodutibilidade e Reuso de Experimentos em eScience: Workflows, Ontologias e Scripts
Candidato(a)
Lucas Augusto Montalvão Costa Carvalho
Nível
Doutorado
Data
Add to Calender 2018-12-14 00:00:00 2018-12-14 00:00:00 Defesa de Doutorado de Lucas Augusto Montalvão Costa Carvalho Reprodutibilidade e Reuso de Experimentos em eScience: Workflows, Ontologias e Scripts Auditório do IC 3 INSTITUTO DE COMPUTAÇÃO mauroesc@ic.unicamp.br America/Sao_Paulo public
Horário
14h00
Local
Auditório do IC 3
Orientador(a)
Claudia Maria Bauzer Medeiros
Banca Examinadora

* Titulares

Unidade/Instituição

Claudia Maria Bauzer Medeiros

IC/UNICAMP

Flávio Eduardo Aoki Horita

CMCC/UFABC

Eduardo Soares Ogasawara

EIC/CEFET-RJ

Julio Cesar dos Reis

IC/UNICAMP

Leonardo Montecchi

IC/UNICAMP

* Professores Doutores

Unidade/Instituição

Cecília Mary Fischer Rubira

IC/UNICAMP

João Meidanis

IC/UNICAMP

Luciano Antonio Digiampietri

EACH/USP

Resumo

Scripts e Sistemas Gerenciadores de Workflows Científicos (SGWfC) são abordagens comumente utilizadas para automatizar o fluxo de processos e análise de dados em experimentos científicos computacionais. Apesar de amplamente usados em diversas disciplinas, scripts são difíceis de entender, adaptar, reusar e reproduzir. Por esta razão, diversas soluções têm sido propostas para auxiliar na reprodutibilidade de experimentos que utilizam ambientes baseados em scripts. Porém, estas soluções não permitem a documentação completa do experimento, nem ajudam quando outros cientistas querem reusar apenas parte do código do script. SGWfCs, por outro lado, ajudam na documentação e reuso através do suporte aos cientistas durante a modelagem e execução dos seus experimentos, que são especificados e executados como componentes interconectados (reutilizáveis) de workflows. Enquanto workflows são melhores que scripts para entendimento e reuso dos experimentos, eles também exigem documentação adicional. Durante a modelagem de um experimento, cientistas frequentemente criam variantes de workflows, e.g., mudando componentes do workflow. Reuso e reprodutibilidade exigem o entendimento e rastreamento da proveniência das variantes, uma tarefa que consome muito tempo. Esta tese visa prover representações explícitas do uso e composição de software para possibilitar novas capacidades que auxiliem na reprodutibilidade e reuso de experimentos computacionais. Para superar estes desafios, nós lidamos com dois problemas de pesquisas: (1) entendimento de um experimento computacional, e (2) extensão de um experimento computacional. Nosso trabalho para resolver estes problemas nos direcionou na escolha de workflows e ontologias como respostas para ambos os problemas. As principais contribuições desta tese são: (i) apresentar os requisitos para a conversão de experimentos baseados em scripts em experimentos reprodutíveis; (ii) propor uma metodologia que guia o cientista durante o processo de conversão de experimentos baseados em scripts em "workflow research objects" reprodutíveis. (iii) projetar e implementar funcionalidades para avaliação da qualidade de experimentos computacionais; (iv) projetar e implementar o W2Share, um arcabouço para auxiliar a metodologia de conversão, que explora ferramentas e padrões que foram desenvolvidos pela comunidade científica para promover o reuso e reprodutibilidade; (v) projetar e implementar o OntoSoft-VFF, um arcabouço para captura de informação sobre software e componentes de workflow para auxiliar cientistas a gerenciarem a exploração e evolução de workflows. Nosso trabalho é apresentado via casos de uso em Dinâmica Molecular, Bioinformática e Aprendizado de Máquina.