Resumo: Esse Projeto Final de Graduação teve como principal inspiração o desenvolvimento de um arcabouço/plataforma para visualização e ensino de modelos de aprendizado profundo. Sabemos que a didática para ensino de Machine Learning (mais especificamente em áreas correlatas ao Deep Learning) pode ser muito comprometida devido a complexidade dos modelos, número exponencial de camadas e parâmetros envolvidos na arquitetura de uma Rede Neural e algoritmos que necessitam de dados muito volumosos para o processo de treinamento.
O desenvolvimento desse projeto final de graduação foi de extrema importância para a consolidação prática e revisão de todos os conceitos de Deep Learning absorvidos na disci- plina de Aprendizado de Máquina, como Transformadores e Mecanismo de Auto Atenção. A arquitetura inicial proposta precisou ser revista devido a limitações de tempo e escopo para desenvolvimento do projeto, tornando-se em uma abordagem mais especializada para treinamento de Transformers com modelo BERT apenas. Porém, dada a complexidade dos modelos e o processo de comunicação entre a execução das células no Notebook e o resul- tado final na paǵina Web, obteve-se um bom resultado no objetivo final do Projeto, que era justamente a representação visual para ensinos de modelo de aprendizagem produnda, independentemente de qual modelo ou algoritmo usado para o processo de treinamento
Como ponto de evolução desse projeto para uma possı́vel Iniciação Cientı́fica, gos- tarı́amos de uma abordagem visual mais estruturada para o usuário final na aplicação Web, com uma possibilidade maior e mais detalhada de parâmetros, representações visuais inter- mediárias e em tempo real ao longo das iterações no treinamento, e expandir/generalizar o mecanismo para outros modelos como CNN, RNN e MLP.
Resumo: Este trabalho apresenta uma variação do clássico problema da Distância de Rearranjos, cujo objetivo é identificar uma sequência de rearranjos que transforma um genoma em outro, respeitando critérios específicos de proximidade baseados em limiares. São exploradas variações baseadas em inversões, -permutações e entropia. Para cada uma das variações foi realizado um estudo do impacto do valor do limiar no problema, uma abordagem de aproximação e uma heurística que pode auxiliar na abordagem de aproximação.
Abstract: This work presents a variation of the classic Rearrangement Distance problem called the Semi-Complete Sorting by Rearrangement Events problem. This variation aims to identify a sequence of rearrangements that transforms one genome into another, adhering to specific proximity criteria based on thresholds. Variations based on inversions, -permutations, and entropy are explored. For each variation, a study was conducted on the impact of the threshold value on the problem, an approximation approach was proposed, and a heuristic that can support the approximation approach was developed.
Resumo: A segmentação de imagens microscópicas é uma tarefa essencial na área biomédica, sendo amplamente utilizada na análise de células. Este Projeto Final de Gradução apresenta um estudo sobre o uso de modelos de aprendizado profundo (deep learning) para segmentação celular, com foco nos modelos Stardist e Cellpose, ambos baseados na arquitetura U-Net. Inicialmente, foi realizada uma revisão de conceitos de microscopia e técnicas de segmentação de células, abrangendo métodos tradicionais e modernos. Em seguida, foi conduzido um experimento utilizando os modelos Cellpose e Stardist em dois datasets públicos do Kaggle: um mais diverso e outro com um contexto mais específico. A métrica de avaliação escolhida foi a "mean average precision" (mAP). Os resultados mostraram que, para o primeiro dataset, o modelo Cellpose apresentou a melhor performance, enquanto o Stardist se destacou por ser mais eficiente em tempo de execução. Para o segundo dataset, a performance de todos os modelos foi baixa devido à segmentação excessiva, indicando a necessidade de adaptações específicas para esse tipo de dado.
Resumo: O relatório apresenta um modelo de consumo energético baseado em aprendizado de máquina voltado para dispositivos de redes celulares. Neste estudo, foram implementadas duas abordagens. A primeira concentra-se na previsão dos picos de consumo de potência, simplificando o problema ao focar nos momentos de maior demanda energética, enquanto a segunda considera o consumo de potência como função do tempo, permitindo previsões mais detalhadas e capturando padrões dinâmicos. O processo incluiu etapas de pré-processamento dos dados, como aplicação de filtros passa-baixa para suavizar sinais, remoção de anomalias com transformada wavelet e organização dos dados para treinamento em redes neurais. Os modelos utilizam parâmetros como largura de banda, potência de transmissão e recepção para prever o consumo energético. Os resultados demonstraram alto desempenho dos modelos, com coeficiente de determinação R-squared acima de 0,94 e MAE (mean absolute error) abaixo de 0,0135 para ambos os modelos. O segundo modelo destacou-se por sua capacidade de prever com maior precisão a forma da curva e o consumo máximo. Conclui-se que essas abordagens podem contribuir significativamente para a avaliação de desempenho e eficiência energética em dispositivos celulares. Esses modelos podem promover maior sustentabilidade e eficiência nas redes celulares, onde a maioria dos dispositivos opera com baterias com capacidade limitada.
Resumo: O relatório apresenta um modelo de consumo energético baseado em aprendizado de máquina voltado para dispositivos de redes celulares. Neste estudo, foram implementadas duas abordagens. A primeira concentra-se na previsão dos picos de consumo de potência, simplificando o problema ao focar nos momentos de maior demanda energética, enquanto a segunda considera o consumo de potência como função do tempo, permitindo previsões mais detalhadas e capturando padrões dinâmicos. O processo incluiu etapas de pré-processamento dos dados, como aplicação de filtros passa-baixa para suavizar sinais, remoção de anomalias com transformada wavelet e organização dos dados para treinamento em redes neurais. Os modelos utilizam parâmetros como largura de banda, potência de transmissão e recepção para prever o consumo energético. Os resultados demonstraram alto desempenho dos modelos, com coeficiente de determinação R-squared acima de 0,94 e MAE (mean absolute error) abaixo de 0,0135 para ambos os modelos. O segundo modelo destacou-se por sua capacidade de prever com maior precisão a forma da curva e o consumo máximo. Conclui-se que essas abordagens podem contribuir significativamente para a avaliação de desempenho e eficiência energética em dispositivos celulares. Esses modelos podem promover maior sustentabilidade e eficiência nas redes celulares, onde a maioria dos dispositivos opera com baterias com capacidade limitada.
Abstract: The Linux kernel is one of the largest collaborative efforts of software development in the world, powering a large majority of the infrastructure that runs computing workloads of all scales - from embedded systems to HPC clusters. As such, improving the testing ecosystem for the Linux kernel is critical to ensure the longevity of the project. The KernelCI project is a recent initiative that looks to provide a unified testing infrastructure for all the kernel subsystems; this work aims to improve the automatic evaluation and labeling of test results for the kernel in the context of the KernelCI project, through the use of modern clustering and data aggregation techniques; in particular, we propose a frequency-based algorithm for filtering and labeling logs from kernel tests as a way to facilitate their analysis by kernel maintainers, greatly improving the efficiency of the review process.
Resumo: O acesso à educação no Brasil ainda não é democrático, assim como o acesso a tecnologia. Muitos estudantes não possuem a infraestrutura condizente com as necessidades de ensino atuais, especialmente em se tratando de estudantes da rede pública de ensino. O contato com tecnologias modernas e o acesso a conteúdos como o ensino de programação ainda é extremamente limitado. Neste mesmo cenário de escassez, a Receita Federal confiscou nos últimos anos um grande número de TV Boxes piratas, equipamentos utilizados para acesso a conteúdos de forma ilegal, e que seriam destruídos, gerando lixo eletrônico e desperdício de equipamentos, caso não fossem doados para instituições de ensino, como a Unicamp, a fim de possibilitar a realização de projetos que buscassem seu reaproveitamento de forma benéfica para a sociedade. Assim, este projeto tem como objetivo a utilização destas TV Boxes como computadores de baixo custo, que possam ser usados em escolas públicas para o ensino de programação, por meio de iniciativas próprias ou de parceiros. Por meio da instalação de um novo Sistema Operacional e sua personalização, voltada para o uso educacional, é possível oferecer aos estudantes um ambiente que possibilita o contato com a aprendizagem de informática e programação.
Resumo: Este trabalho, desenvolvido em colaboração com o Instituto Tecnológico de Aeronáutica (ITA) e a Universidade de Tecnologia e Economia de Budapeste (BME), investiga abordagens sistemáticas para a modelagem e geração de casos de teste de um sistema embarcado crítico, denominado Train Door Controller.
A combinação das técnicas STPA e CoFI com a ferramenta GraphWalker foi empregada para criar casos de teste automatizados baseados em modelos de estados que descrevem o sistema.
Os casos de teste, implementados em JUnit, validaram o comportamento do sistema sem a identificação de falhas. Entretanto, alguns requisitos não foram completamente cobertos devido à falta de especificações claras, evidenciando tanto a importância de requisitos bem definidos quanto a capacidade da abordagem de identificar tais lacunas.
Os resultados reforçam a eficácia da integração de técnicas de modelagem com ferramentas automatizadas para garantir a qualidade de sistemas críticos, promovendo maior confiabilidade e segurança no desenvolvimento desses sistemas.
Resumo: Uma forma de determinar a qualidade de conjuntos de teste é pela avaliação da cobertura. Na geração automática de casos de testes baseados em modelos de estado, vários critérios de cobertura do modelo são implementados pelas ferramentas, tais como cobertura de estados ou cobertura de transições. Será que conjuntos de testes que satisfazem aos critérios de cobertura do modelo de estados garantem uma boa cobertura da API REST em teste? Uma especificação de uma API contém requisições, respostas, recursos ou endpoints), entre outras, que precisam ser exercitados durante os testes. Este trabalho procura avaliar quão bem os conjuntos de testes gerados de acordo com os diferentes critérios baseados em modelos de estado são capazes de cobrir adequadamente os elementos de uma API. Com a utilização de um conjunto de métricas de cobertura para APIs, o objetivo é ter uma forma de auxiliar as equipes de testes a determinar aonde introduzir melhorias nos conjuntos de testes gerados.
Resumo: Este trabalho estuda imparcialidade em sistemas de recomendação, que têm se tornado cada vez mais comuns em plataformas digitais para recomendação de filmes, séries, músicas, livros, produtos, entre outros. Tais sistemas, embora eficientes na personalização da experiência do usuário, podem incorrer em vieses que afetam a parcialidade das recomendaçõoes, muitas vezes prejudicando grupos específicos ou favorecendo outros de forma não intencional baseado em atributos sensíveis.
Para avaliar a imparcialidade desses sistemas, são necessários testes e métricas específicas, o que não é tão simples quanto os testes de acurácia, pois é difícil estabelecer o que se espera em termos de imparcialidade e ainda mais desafiador medi-la de forma precisa.
Entretanto, existe uma vasta gama de ferramentas disponíveis para realizar tais testes, e a escolha da mais adequada pode ser um desafio. Este trabalho tem como objetivo entender os principais fatores que devem ser considerados ao selecionar uma ferramenta para testar a imparcialidade em sistemas de recomendação.
Resumo: Este trabalho visa democratizar o acesso a informações públicas e técnicas sobre blockchains, utilizando técnicas de análise de dados com modelos de linguagem generativa. A proposta inclui o uso de visão computacional e modelos de linguagem multimodais para explorar dados extraídos da rede blockchain através de APIs, permitindo uma interpretação mais acessível e detalhada dessas informações. A realização do estudo baseou-se no projeto open-source mempool [], disponível no GitHub, que fornece dados essenciais para a implementação das análises e desenvolvimento de soluções inovadoras para consultas em blockchain. Com base em diversos testes, foi realizado um comparativo entre várias configurações para análise de dados de blockchain e geração de texto, com o intuito de identificar a abordagem mais eficiente. Observou-se que a configuração com melhor desempenho foi o modelo GPT-4-Vision-Preview integrado com web search e temperatura 0.8, destacando-se pela precisão e rapidez na análise dos dados. A diferença de performance entre essa configuração e a menos eficiente alcançou aproximadamente 24%, de acordo com parâmetros de avaliação como pontuação de extensão (length_score), semelhança com linguagem humana (human_likeness), relevância (relevance) e precisão factual (factual_accuracy). Esses resultados demonstram a importância de escolher parâmetros e modelos adequados para otimizar a interpretação de dados em redes blockchain.
Resumo: Com a crescente demanda por vídeo nos últimos anos e o crescimento da computação em nuvem, estamos vivenciando um maior investimento em streaming de vídeo adaptativo. Um protocolo popular que surgiu nesse contexto é o Dynamic Adaptive Streaming over HTTP (DASH). Ele propõe que um player de vídeo pode ajustar dinamicamente a taxa de bits com base na largura de banda disponível, maximizando o uso eficiente de recursos e permitindo uma experiência personalizada - conforme o dispositivo do usuário e as condições da rede. A arquitetura proposta nesse projeto encontra pauta no contexto do continuum edge-cloud, destacando como serviços de streaming de vídeo podem ser otimizados para lidar com usuários móveis. Para isso, foi explorado o problema do Multi-Armed Bandits e utilizado algoritmos de aprendizado por reforço, como Epsilon-Greedy e UCB1, combinados com métricas de latência para melhor redirecionar as requisições do cliente aos servidores cache. Os cenários explorados foram: cliente imóvel com estresse em um servidor e cliente móvel com cenários de estresse e sem estresse de servidor. Os resultados analisados mostram que a qualidade de experiência do usuário não depende somente da proximidade com o servidor cache que armazena o conteúdo de vídeo. Faz-se necessário capturar métricas adicionais. No nosso caso, capturamos o congestionamento do servidor e concluímos que o redirecionamento de requisições atua também como um balanceador de carga em sistemas de streaming de vídeo adaptativo. Além disso, vimos como a arquitetura de Content Steering pode permitir que o usuário final tenha uma menor latência durante sua experiência de streaming, explorando a Computação Contínua.
Abstract: With the growing demand for video in recent years and the growth of cloud computing, we are seeing increased investment in adaptive video streaming. One popular protocol that has emerged in this context is Dynamic Adaptive Streaming over HTTP (DASH). It proposes that a video player can dynamically adjust the bitrate based on available bandwidth, maximizing the efficient use of resources and enabling a personalized experience - depending on the user's device and network conditions. The architecture proposed in this project is based on the edge-cloud continuum, highlighting how video streaming services can be optimized to handle mobile users. To this end, the Multi-Armed Bandits problem was explored and reinforcement learning algorithms, such as Epsilon-Greedy and UCB1, were used, combined with latency metrics to better redirect client requests to cache servers. The scenarios explored were: stationary client with stress on a server and mobile client with stress and no server stress scenarios. The results show that the quality of user experience does not depend solely on the proximity to the cache server that stores the video content. It is necessary to capture additional metrics. In our case, we captured server congestion and concluded that request redirection also acts as a load balancer in adaptive video streaming systems. In addition, we saw how the Content Steering architecture can allow the end user to have lower latency during their streaming experience, exploiting Computing Continuum.
Resumo: O Federated Learning (FL) é uma abordagem emergente em Machine Learning (ML) que permite o treinamento colaborativo de modelos sem a necessidade de centralizar os dados. Essa técnica tem ganhado destaque na literatura devido à sua capacidade de preservar a privacidade e possibilitar o treinamento em ambientes distribuídos, como dispositivos móveis conectados à borda da rede. O aumento do interesse por FL reflete a relevância de explorar soluções descentralizadas para problemas que envolvem grandes volumes de dados e restrições de privacidade. O Federated Learning (FL) é uma boa solução porque permite que o pré-processamento e o treinamento dos dados sejam realizados diretamente nos dispositivos locais, preservando a privacidade ao evitar a transferência de dados brutos para servidores centrais. Em vez disso, apenas os parâmetros atualizados dos modelos (como pesos e gradientes) são compartilhados pela rede, reduzindo significativamente o tráfego de dados e os riscos associados à exposição de informações sensíveis. O simulador MobFogSim é reconhecido por sua capacidade de replicar ambientes distribuídos, simulando a mobilidade de dispositivos móveis executando aplicações conectadas a servidores em arquitetura de computação na borda. Essas características tornam o simulador um ambiente adequado para estudos de treinamento federado, dada sua habilidade em representar cenários complexos de sistemas distribuídos e interações dinâmicas entre dispositivos e servidores. Logo, neste projeto, tivemos como objetivo viabilizar a integração de modelos de Machine Learning (ML) ao simulador MobFogSim, ampliando suas funcionalidades para suportar estudos de treinamento federado em cenários com dispositivos móveis e dados descentralizados. Para alcançar esses objetivos, o projeto foi estruturado em três módulos principais: 1) o simulador foi adaptado para gerar logs detalhados por dispositivo, possibilitando a coleta de dados para treinamento federado utilizando o framework Flower; 2) um modelo de Machine Learning foi treinado de forma colaborativa e descentralizada; e 3) uma API, desenvolvida com FastAPI e PyTorch, foi implementada para integrar o modelo treinado ao simulador, permitindo a tomada de decisões dinâmicas durante as simulações. Ao adicionar suporte a FL e ML no MobFogSim, possibilitamos que o simulador tome decisões baseadas em modelos de ML em tempo real, tornando-o uma opção para pesquisas que envolvem treinamento federado.
Resumo: Este é o relatório do projeto de Conclusão de Curso realizado em parceria com o Prof. Roberto Greco do Instituto de Geociências sob tutoria do Prof. Luiz F. Bittencourt do Instituto de Computação, cujo objetivo é desenvolver um sistema para coleta de dados de colmeias que serão instalados em escolas para aprendizado dos estudantes. O sistema faz a coleta de dados do ambiente da colmeia via Wi-fi com uma placa embarcada, mantendo a segurança das abelhas e a integridade da placa. O projeto teve quatro placas fornecidas, além dos sensores, pelo Prof. Fabiano Fruett da Faculdade de Engenharia Elétrica e de Computação. Os sensores realizam medição da temperatura, umidade, som, pressão e proximidade. Também é realizada a coleta de dados de condições climáticas provenientes da API OpenWeatherMap.
Resumo: Este é o relatório do projeto realizado como Trabalho de Conclusão de Curso do Instituto de Computação, em parceria com o Prof. Luiz Fernando Bittencourt e o Coorientador Eduardo de Souza Gama, cujo objetivo é desenvolver um sistema de content steering no edge-cloud. trabalho descreve o desenvolvimento de um sistema adaptativo de content steering para otimizar o streaming de vídeo em ambientes edge-cloud, enfrentando desafios na distribuição de conteúdo ao integrar gerenciamento dinâmico de servidores de cache com controle adaptativo de rede. A plataforma oferece um dashboard web interativo para monitorar e controlar parâmetros críticos como latência, perda de pacotes e largura de banda em tempo real, utilizando containers Docker para simular uma infraestrutura distribuída. Com métodos dual de seleção de servidores, um tradicional e outro com Inteligência Artificial, e seis presets predefinidos (2G a Fiber) para simular diferentes condições de rede, o sistema demonstrou manter a Qualidade de Experiência (QoE) em níveis adequados mesmo em redes adversas. Sua arquitetura modular e sistema robusto de logging e geração de gráficos facilitam análises detalhadas de desempenho e oferecem uma base sólida para futuras expansões, contribuindo para o avanço das tecnologias de streaming adaptativo em redes heterogêneas.
Resumo: Este trabalho realiza uma análise do desempenho energético em frotas de drones autônomos em cenários de entrega urbana, avaliando estratégias de detecção e evasão de colisões aplicadas a diferentes modelos de consumo de energia. Assim, este trabalho destaca a importância do estudo e pesquisa de modelos empíricos de consumo energético, além do cuidado na escolha dos modelos e calibração dos seus parâmetros para garantir simulações de drones autônomos mais realistas e precisas.
Resumo: O crescimento exponencial de dispositivos móveis e o aumento da complexidade de modelos de aprendizado de máquina impulsionaram o interesse em abordagens descentralizadas, como o aprendizado federado. Essa metodologia permite o treinamento colaborativo de modelos sem a necessidade de transferência de dados sensíveis, promovendo maior privacidade e eficiência. No entanto, o impacto do aprendizado federado no consumo energético dos dispositivos móveis ainda é um desafio subexplorado, especialmente em cenários de uso real. Além disso, ainda não existem ferramentas difundidas para medir o impacto desse treinamento distribuído em diferentes dispositivos.
Diante disso, este projeto apresenta o desenvolvimento de uma aplicação Android projetada para permitir o treinamento on-device de modelos de aprendizado de máquina utilizando datasets customizados. A aplicação coleta métricas detalhadas de consumo energético durante o processo de treinamento, fornecendo subsídios para a análise de impacto do aprendizado federado em dispositivos móveis. Além disso, foi implementada uma simulação de aprendizado federado baseada nas medições obtidas, com o objetivo de avaliar o impacto ambiental e de desempenho dessa abordagem em diferentes cenários.
Assim, este trabalho fornece meios para medição do impacto energético do aprendizado federado em cenários customizados. Os resultados demonstram a viabilidade da aplicação para auxiliar pesquisadores e desenvolvedores na análise de trade-offs entre desempenho, consumo energético e impacto ambiental em arquiteturas de aprendizado federado.
Resumo: Este trabalho é um relatório realizado como Projeto Final de Graduação do Instituto de Computação, em parceria com o Prof. Roberto Greco do Instituto de Geociências. O objetivo do projeto é desenvolver um sistema para a coleta e processamento de dados de colmeias, para estudo em escolas. O sistema é composto por placas embarcadas, e uma aplicação Web. As placas fazem a coleta de dados de temperatura, umidade, pressão e som, se comunicando com a aplicação via Wi-Fi por meio de requisições HTTP. A aplicação permite observar os dados de diferentes colmeias e sensores, assim como fazer o upload de um vídeo que mostre o fluxo de abelhas ao redor da entrada da colmeia. Esse vídeo é, então, processado para realizar a contagem de abelhas que entram e saem, expondo os resultados em gráficos.
Resumo: Contexto: Este trabalho investiga a detecção e a análise de code smells e refatorações em projetos de code samples, abordando como essas práticas impactam a qualidade do código ao longo do tempo. A presença de code smells – características de código que podem indicar problemas de design e comprometer a manutenibilidade – está diretamente relacionada à qualidade de um software e à sua capacidade de evolução. Refatorações, por sua vez, são modificações no código que não alteram seu comportamento externo, mas visam melhorar sua estrutura interna, facilitando a manutenção e reduzindo a possibilidade de bugs futuros. Objetivo: O objetivo desta pesquisa é compreender a presença, a evolução e a eficácia de code smells e refatorações em repositórios de code samples. Utiliza-se a abordagem Goal Question Metric (GQM) para estruturar o estudo, definindo metas específicas e criando métricas para quantificar o impacto das refatorações na qualidade do código, bem como para analisar como code smells mudam ao longo do tempo em resposta a essas refatorações. Método: Foram selecionados seis ecossistemas de software representativos e amplamente utilizados, como spring-guides, spring-cloud-samples, googlesamples, entre outros, aplicando critérios como número mínimo de contribuidores, LOC entre 500 e 100.000, e atividade recente nos repositórios. A coleta de dados utiliza a API do GitHub para identificação dos repositórios e o SonarQube (versão 10.7) junto ao SonarScanner (versão 6.2.1) para análise de code smells. Para identificar refatorações, foi utilizado o RefactoringMiner. Resultados: Os resultados indicam que code smells são frequentes em code samples, mas a sua resolução nem sempre é priorizada. Refatorações, por sua vez, apresentam padrões cíclicos e a sua frequência está relacionada com fatores como complexidade do código e colaboração. Conclusão: O estudo demonstra a importância de ferramentas e processos para gestão de code smells e refatorações em code samples. É crucial promover a qualidade do código e conscientizar os desenvolvedores sobre a importância dessas práticas para garantir a eficácia e a longevidade dos projetos.
Resumo: Este trabalho explora a aplicação do paradigma de renderização por Ray Tracing para a visualização em tempo real de modelos descritos por voxels. Descrevemos inicialmente uma implementação usando Compute Shaders com os dados organizados em uma matriz tridimensional (3D). Em seguida, introduzimos uma otimização trocando a estrutura de dados para uma Sparse Voxel Octree (SVO), explicando sua construção, como pode ser percorrida, bem como os ganhos de eficiência em termos de memória e processamento gráfico alcançados com ela. Finalmente, demonstra-se a importância dessa estrutura de aceleração para alcançar métricas satisfatórias de desempenho em aplicações interativas.
Resumo: Desenhos e animações são compostos por linhas bem definidas que separam os objetos do fundo. Dessa forma, métodos de colorização de imagens naturais não são eficientes neste cenário. Assim, várias abordagens surgiram nos últimos anos com diferentes estratégias para resolver este problema. Este trabalho investiga as principais técnicas desenvolvidas para colorização de animações, ressaltando suas semelhanças e diferenças. Além disso, ele inclui uma discussão sobre os conjuntos de dados utilizados e as metodologias de avaliação, bem como os principais desafios da área.
Resumo: Este trabalho busca implementar e comparar diferentes técnicas de classificação de textos de 'spotted'. Spotteds são páginas de que publicam mensagens e textos de forma anônima em redes sociais. Para tal estudo, separou-se um conjunto de textos, rotulados entre 'postáveis' e 'não-postáveis'. A partir desses dados, testaram-se três abordagens distintas de classificação: utilizar o serviço de moderação pronto da OpenAI (Moderation Service), utilizar um modelo de linguagem pronto com um prompt específico, e utilizar embeddings em modelos de classificação tradicionais, como SVM, Naive Bayes e Random Forest. A métrica de recall foi utilizada para avaliar o desempenho inicial de cada abordagem, seguida de ajustes de hiperparâmetros para otimizar os resultados.
Abstract: This work seeks to implement and compare different spotted text classification techniques. Spotteds are pages that publish messages and texts anonymously on social networks. For this study, a set of texts was separated, labeled as 'postable' and 'non-postable'. From this data, three different classification approaches were tested: using OpenAI's ready-made moderation service (Moderation Service), using a ready-made language model with a specific prompt, and using embeddings in traditional classification models, such as SVM, Naive Bayes and Random Forest. The recall metric was used to evaluate the initial performance of each approach, followed by hyperparameter adjustments to optimize the results.
Resumen Este trabajo busca implementar y comparar diferentes técnicas de clasificación para textos 'manchados'. Se detectan páginas que publican mensajes y textos de forma anónima en las redes sociales. Para este estudio, se separó un conjunto de textos, etiquetados entre 'postáveis' y 'não-postáveis'. Con base en estos datos, probaremos tres enfoques de clasificación diferentes: usar el servicio de moderación OpenAI (Servicio de moderación), usar pronto un modelo de lenguaje con un mensaje específico y usar incrustaciones en modelos de clasificación tradicionales, como SVM, Naive Bayes y Random Forest.. Se utilizó una métrica de recuperación para evaluar el rendimiento inicial de cada enfoque, seguida de ajustes de hiperparámetros para optimizar los resultados.
Resumo: Este relatório analisa adaptações de dois modelos da literatura para variantes do problema de Partição Comum Mínima de Strings Balanceadas. Como esse problema se origina da Biologia Computacional, onde as strings representam genomas, propomos evoluções para os modelos que atendam variantes do problema. Nessas variantes consideramos o caso em que as strings não são balanceadas, representando genomas com conjuntos diferentes de genes, e o caso em que os caracteres possuem sinais positivo ou negativo, representando a orientação dos genes. Também levamos em conta variações considerando o número de nucleotídeos entre os genes. Ao final, os diferentes modelos foram testados e comparados em termos de tempo de execução e qualidade da solução.
Resumo: O conhecimento detalhado da subsuperfície terrestre é de extrema importância para áreas como a exploração de recursos naturais, a realização de estudos ambientais e o planejamento da infraestrutura. Este trabalho explora a Inversão da Forma de Onda Completa (FWI), uma técnica de imageamento geofísico capaz de gerar modelos detalhados da subsuperfície terrestre a partir de dados de propagação de ondas sísmicas coletados na superfície. Também é abordada a simulação da propagação de ondas, fundamental para o imageamento geofísico, e a implementação experimental da FWI utilizando a infraestrutura de computação do Laboratório de Sistemas de Computação (LSC) do Instituto de Computação (IC) da Unicamp. A modelagem sísmica e a simulação de dados sísmicos complementam a análise. Conclui-se com uma discussão sobre melhorias futuras, incluindo a execução paralela e distribuída da aplicação e o emprego de técnicas de aprendizado de máquina para aprimorar a qualidade dos modelos gerados pela aplicação.
Abstract: Detailed knowledge of the Earth's subsurface is of utmost importance for areas such as natural resource exploration, environmental studies, and infrastructure planning. This work explores Full Waveform Inversion (FWI), a geophysical imaging technique capable of generating detailed models of the Earth's subsurface from seismic wave propagation data collected on the surface. It also addresses the simulation of wave propagation, which is fundamental for geophysical imaging, and the experimental implementation of FWI using the computing infrastructure of the Laboratory of Computer Systems (LSC) at the Institute of Computing (IC) of Unicamp. Seismic modeling and seismic data simulation complement the analysis. The study concludes with a discussion on future improvements, including the parallel and distributed execution of the application and the use of machine learning techniques to enhance the quality of the models generated by the application.
Abstract: This work is a study about the post-quantum signature scheme SQISign, one of the candidates in the NIST Post-Quantum Cryptography Standardization contest. The SQISign algorithm assumes the hardness of finding a path in supersingular isogeny graphs and uses the Deuring correspondence to operate in the quaternion algebra world during signature and in the elliptic curves world during verification. Among the other candidates in the same category, SQISign has relatively small public key and signature sizes, which is an important advantage. The recent SIDH attacks showed new ways of efficiently representing isogenies. This fact, resulted in some new variants of SQISign, now using 2, 4, and 8-dimension isogenies. Among the available variants, we are going to discuss SQISign2D-West and SQISignHD.
Resumo: Neste trabalho, apresentamos uma extensão do projeto Smart Parking, um sistema de monitoramento de vagas de estacionamento implementado no campus da Unicamp. O objetivo foi desenvolver uma solução tecnológica eficiente para a gestão de estacionamentos, aumentando a conveniência dos usuários e otimizando o uso das vagas disponíveis. Utilizamos tecnologias como MongoDB para gerenciamento de dados, MQTT para comunicação entre dispositivos IoT e React para o front-end, criando um sistema modular, escalável e de fácil manutenção. A arquitetura segue práticas de projeto de software, garantindo baixo acoplamento e alta coesão entre componentes. Testes unitários com Jest asseguraram a confiabilidade do sistema, validado mediante simulações controladas contendo múltiplos estacionamentos.
Resumo: O InventIo é uma plataforma, de uso exclusivo do Instituto de Computação da Unicamp, concebida para o rastreamento de objetos com o fim de gerenciar a movimentação de itens críticos. Essencialmente, a aplicação possibilita o cadastro de objetos com tags de identificação por radiofrequência (RFID) e a gestão de sensores para sua detecção. Sempre que um sensor identifica uma tag (objeto) é gerado um histórico contendo sua localização e horário em que o item foi identificado.
A presente etapa do projeto busca avançar o sistema existente com a adição de novas funcionalidades, compreender e validar o uso da tecnologia RFID e, por fim, instalar a solução nas dependências do Instituto de Computação. Além disso, também é de interesse realizar avaliações para ampliar o escopo de uso dessa tecnologia no campus.
Após realizar as melhorias previstas e conduzir uma série de experimentos, os resultados obtidos demonstram o potencial da plataforma InventIo mas, também, expuseram limitações consideráveis. Em especial a tecnologia RFID se mostrou demasiadamente sensível a interferências, o que restringe o uso do sistema. Quanto a aplicação dessa tecnologia em outros contextos, foi avaliada a possibilidade de automatizar o processo de inventário do Instituto. Os resultados são promissores, e, apesar de limitações quanto ao uso de tags em superfícies metálicas, meios para contornar essa restrição foram explorados.
Abstract: InventIo is a platform exclusively used by the Institute of Computing at Unicamp, designed for tracking objects to manage the movement of critical items. Essentially, the application enables the registration of objects with radio frequency identification (RFID) tags and the management of sensors for their detection. Whenever a sensor identifies a tag (object), a history is generated containing its location and the time the item was identified.
The current phase of the project aims to advance the existing system by adding new functionalities, understanding and validating the use of RFID technology, and finally, installing the solution within the Institute of Computing's premises. Additionally, there is an interest in conducting evaluations to expand the scope of this technology's use on campus.
After implementing the planned improvements and conducting a series of experiments, the results demonstrate the potential of the InventIo platform but also reveal significant limitations. In particular, RFID technology proved to be highly sensitive to interference, which restricts the system's use. Regarding the application of this technology in other contexts, the possibility of automating the Institute's inventory process was evaluated. The results are promising, and despite limitations concerning the use of tags on metallic surfaces, methods to overcome this restriction were explored.
Resumo: O aprendizado federado é uma solução comum para o problema de treinar modelos de inteligência artificial em ambientes onde os dados não podem ser facilmente centralizados, garantindo também a privacidade dos clientes. No entanto, implementar soluções de aprendizado federado em larga escala para aplicações reais pode ser particularmente desafiador. O framework Flower propõe lidar com problemas como a homogeneidade de hardware e linguagem de implementação, ao mesmo tempo em que facilita a execução performática dos algoritmos em testes de maior escalabilidade. Este trabalho visa avaliar a performance e viabilidade dos algoritmos FedProx e FedAvgM, dois algoritmos usados em casos de dados non-IID, no contexto de aprendizado federado quando implementados usando o framework Flower, avaliando sua acurácia e escalabilidade, assim como o tempo necessário para alcançar tais resultados, com o objetivo de classificar a viabilidade de uso de cada solução.
Resumo: Nos últimos anos, diversos algoritmos e métricas foram desenvolvidos para definir de maneira eficiente a distância entre diferentes grupos de dados, técnicas geralmente aplicadas em algoritmos de clusterização de usuários. Paralelamente, existe também a crescente preocupação em formas de garantir a segurança dos dados recebidos de um usuário, de forma que sua identidade não seja comprometida e que suas informações não sejam reproduzidas por terceiros. Nesse contexto, este trabalho busca analisar como diferentes técnicas de segurança impactam em métricas de distância comumente utilizadas na atualidade, aplicando distintos graus de privacidade sobre elas, a fim de verificar a possibilidade da implementação de privacidade em paralelo a aplicação dessas métricas. Dessa forma, utilizando bibliotecas de simulação, como o Flower, e conjuntos de dados mais simples, foi possível observar que as métricas possuem comportamentos bastante sensíveis a aplicação de privacidade, mas que ainda permitem a utilização de graus menos severos dessa.
Resumo: Este é o relatório do projeto realizado como Trabalho de Conclusão de Curso do Instituto de Computação, em parceria com o Prof. Roberto Greco do Instituto de Geociências e o Prof. Fabiano Fruett da Faculdade de Engenharia Elétrica e de Computação, cujo objetivo é desenvolver um sistema para coleta de dados de colmeias que serão instalados em escolas para o aprendizado dos alunos e alunas. sistema faz a coleta de dados do ambiente da colmeia via rede sem fio com uma placa embarcada, isso tudo à distância das próprias abelhas, assim mantendo a segu- rança delas e a integridade da placa. O projeto teve quatro placas fornecidas, além dos dos sensores, pelo Prof. Fabiano, os sensores tratam da temperatura, umidade, som, pressão e proximidade, ademais também condições climáticas vindas da API OpenWeatherMap.
Resumo: Este projeto visa desenvolver uma metodologia para a dinamização da distribuição remota de componentes no contexto de sistemas auto-distribuídos. A abordagem escolhida busca otimizar a escalabilidade e adaptabilidade dos sistemas, aproveitando a infraestrutura dos sistemas gerenciadores de containers para manter executando apenas o que seja estritamente necessário. Com isso, é possível observar como uma aplicação pode fazer o uso dos ajustes em runtime para melhorar seu tempo de execução, enquanto mantém os custos sob controle.
Resumo: Este trabalho trata-se de uma análise comparativa entre diferentes técnicas de balanceamento de carga: Round Robin, Round Robin Ponderado, baseado em Metadados e Aprendizado de Máquina. A arquitetura foi baseada em uma plataforma de processamento de mensagens, que trafega conteúdos de diferentes tipos, utilizando dados reais. O objetivo foi encontrar a melhor estratégia para processar um volume grande de mensagens com diferentes tipos e tamanhos de instâncias, buscando entender se os algoritmos customizados para o domínio da aplicação apresentam melhor desempenho. Para o problema proposto, concluiu-se que tais algoritmos podem ser mais eficientes, a exemplo do baseado em Metadados. Por outro lado, os algoritmos baseados em Aprendizado de Máquina não apresentaram bom desempenho quando comparados às técnicas mais simples devido ao seu custo computacional.
Instituto de Computação ::
Universidade Estadual de Campinas
Av. Albert Einstein, 1251 - Cidade Universitária Zeferino Vaz • 13083-852 Campinas, SP - Brasil • Fone: [19] 3521-5838 |