21 fev 2025
09:00 Defesa de Mestrado Sala 53 do IC 2
Tema
Treinamento e Inferência de Redes Neurais Sem Peso Sobre Dados Criptografados
Aluno
Leonardo Henrique Neumann
Orientador / Docente
Edson Borin / Coorientador - Antonio Carlos Guimarães Junior
Breve resumo
A adoção em massa de algoritmos de aprendizado de máquina trouxe preocupações dentro da comunidade de pesquisa de privacidade de dados, exigindo esforços para desenvolver técnicas de preservação de privacidade. Entre essas abordagens, a avaliação homomórfica de algoritmos de aprendizado de máquina se destaca por ser capaz de computar diretamente sobre dados encriptados, oferecendo garantias de confidencialidade robustas. Enquanto houve progresso significativo em algoritmos eficientes de criptografia homomórfica (HE) para inferência em Redes Neurais Convolucionais (CNNs), ainda não existem soluções eficientes para treinamento encriptado. As soluções atuais geralmente dependem de protocolos interativos, que, embora preservem a privacidade, impõem um enorme custo de comunicação. Essa limitação destaca a demanda por soluções de aprendizado de máquina mais rápidas que preservem a privacidade e possam manter a confidencialidade dos dados e o desempenho do modelo em uma ampla gama de aplicações. Este trabalho apresenta uma nova abordagem para o aprendizado de máquina com preservação de privacidade por meio da avaliação homomórfica do Algoritmo de Reconhecimento de Wilkie, Stonham e Aleksander (WiSARD) (Aleksander et al., 1984) e subsequentes Redes Neurais Sem Peso (WNNs) de última geração, usando o esquema TFHE de criptografia totalmente homomórfica (FHE). Apresentamos várias contribuições, incluindo extensões para o TFHE, otimizações de parâmetros e modificações nas WiSARDs para melhorar a acurácia. Nossa abordagem permite o treinamento e a inferência baseada em FHE, juntamente com técnicas complementares, como balanceamento homomórfico. Avaliamos nossos modelos homomórficos WiSARD em relação a abordagens de última geração em três conjuntos de dados de referência: MNIST, HAM10000 e Wisconsin Breast Cancer. Nossos resultados demonstram melhorias significativas de desempenho, alcançando níveis de latência competitivos em minutos de treinamento criptografado em comparação aos dias exigidos por trabalhos anteriores. Para o MNIST, alcançamos 91,71% de acurácia após apenas 3,5 minutos de treinamento encriptado, aumentando para 93,76% após 3,5 horas. No HAM10000, alcançamos 67,85% de precisão em apenas 1,5 minutos, aumentando para 69,85% após 1 hora. Comparado ao Glyph (Lou et al., 2020), o estado da arte em treinamento homomórfico, esses resultados representam ganhos de desempenho de até 1200 vezes com uma perda máxima de acurácia de 5,4%. Para HAM10000, alcançamos até mesmo uma melhoria de acurácia de 0,65% sendo 60 vezes mais rápidos. Nossos modelos oferecem um bom balanço entre velocidade, acurácia e preservação de privacidade. Também demonstramos a praticidade da nossa abordagem em hardware nível consumidor, treinando mais de 1000 imagens do MNIST em 12 minutos ou o conjunto inteiro do Wisconsin Breast Cancer em apenas 11 segundos usando um único núcleo e menos de 200 MB de memória. A nossa técnica se destaca pela flexibilidade em cenários como aprendizado distribuído, federado e contínuo. Embora ainda não alcance a acurácia das CNNs, as WiSARDs homomórficas representam um passo significativo para tornar o aprendizado de máquina baseado em FHE mais acessível para aplicações de dados sensíveis.
Banca examinadora
Titulares:
Edson Borin IC/UNICAMP
Hilder Vitor Lima Pereira IC/UNICAMP
Priscila Machado Vieira Lima UFRJ
Suplentes:
Allan Mariano de Souza IC/UNICAMP
Marco Aurélio Amaral Henriques FEEC/UNICAMP