Defesa de Mestrado de Bárbara Caroline Benato

Título do Trabalho
Anotação de Dados guiada por Projeção de Características
Candidato(a)
Bárbara Caroline Benato
Nível
Mestrado
Data
Add to Calender 2019-09-10 00:00:00 2019-09-10 00:00:00 Defesa de Mestrado de Bárbara Caroline Benato Anotação de Dados guiada por Projeção de Características Auditório do IC INSTITUTO DE COMPUTAÇÃO mauroesc@ic.unicamp.br America/Sao_Paulo public
Horário
15:00
Local
Auditório do IC
Orientador(a)
Alexandre Xavier Falcão
Banca Examinadora

* Titulares

Unidade/Instituição

Alexandre Xavier Falcão

IC/UNICAMP

Moacir Antonelli Ponti

ICMC/USP

Pedro Jussieu de Rezende

IC/UNICAMP

 

* Suplentes

Unidade/Instituição

Esther Luna Colombini

IC/UNICAMP

Maria Cristina Ferreira de Oliveira

ICMC/USP

Resumo

Anotação de dados baseada na inspeção visual do usuário (supervisão)
de cada amostra de treinamento pode ser um processo trabalhoso,
especialmente quando o número de amostras é grande --- um conhecido
problema no aprendizado de arquiteturas de redes neurais com muitas
camadas escondidas em Aprendizado de Máquina. A anotação de dados pelo usuário pode ser ainda mais trabalhosa, particularmente, em áreas que
requerem um profissional com conhecimento especializado, como Medicina
e Biologia. Tradicionalmente, estudos têm apresentado soluções que
empregam o aprendizado semi-supervisionado para lidar com tal questão,
a fim de propagar rótulos a partir de poucas amostras supervisionados
para amostras não-supervisionadas, explorando a distribuição dessas
amostras no espaço de características. Contudo, tais trabalhos não
consideram a habilidade cognitiva do usuário para entender projeções
do espaço de características com o propósito de aumentar a quantidade
de amostras rotuladas para o aprendizado de máquina. Neste trabalho,
explorou-se o usuário assistido por uma ferramenta de analítica visual
na tarefa de propagar rótulos para uma grande quantidade de amostras
não-supervisionadas. O usuário é guiado pelo conhecimento de rótulo de
poucas amostras, bem como pela informação visual da distribuição das
amostras na projeção do espaço de características. Além disso,
investigou-se uma abordagem de anotação de dados semi-automática, ou
seja, que combina a propagação de rótulos manual e automática,
utilizando uma projeção apropriada do espaço de características e
estimação de rótulo semi-supervisionada com medida de certeza para
reduzir o esforço do usuário. O método é validado em dois contextos:
em uma base conhecida de imagens, MNIST, e em bases de imagens de
parasitos intestinais de humanos com e sem impurezas fecais (uma
classe adversa que torna o problema mais desafiador). O estudo avalia
duas abordagens automáticas para aprendizado semi-supervisionado nos
espaços latente e projetado. Além disso, avalia dois classificadores
supervisionados distintos, treinados com os conjuntos rotulados. Por
fim, o objetivo é escolher aquele que melhor reduz o esforço do
usuário para a anotação de dados e, ao mesmo tempo, aumenta os
resultados de acurácia na classificação do conjunto de teste. Os
resultados sugerem que ferramentas de analítica visual, quando
utilizadas para combinar as habilidades complementares de humanos e
máquinas, permitem um aprendizado de máquina mais eficaz.