Overview

Disciplinas Projetos
Proj1
Proj2
Proj3
Proj4
Proj5


Sheet 1: Disciplinas Projetos

MC851B





RA Proj1 Proj2 Proj3 Proj4 Proj5 Média final
024374 10.0 10.0 10.5 11.0 10.0 10.0
091599 10.0 10.0 12.0 10.0 10.0 10.0
105441 8.5 0.0 0.0 0.0 0.0 1.7
116928 10.0 10.0 10.0 10.0 10.0 10.0
119785 0.0 10.0 10.0 10.0 8.5 7.7
121405 10.0 10.0 11.0 11.0 10.0 10.0
135801 11.0 11.0 10.0 11.0 10.0 10.0
135986 10.0 10.0 10.0 10.0 0.0 8.0
136576 10.0 10.5 10.0 10.0 10.0 10.0
136686 0.0 9.5 10.0 0.0 9.5 5.8
136700 10.0 10.5 10.0 10.0 10.0 10.0
137715 10.0 10.0 12.0 10.0 10.0 10.0
137748 10.0 10.5 10.0 10.0 10.0 10.0
138760 10.0 10.0 10.0 10.0 0.0 8.0
139056 9.5 11.0 11.0 9.5 10.0 10.0
139223 9.5 9.5 10.0 0.0 9.5 7.7
139715 9.5 9.5 9.5 10.0 9.0 9.5
146377 9.5 9.5 10.0 0.0 9.5 7.7
146997 10.0 10.0 10.0 10.0 0.0 8.0
157104 0.0 0.0 0.0 0.0 0.0 0.0
191891 9.5 0.0 0.0 0.0 0.0 1.9







MC855A





RA Proj1 Proj2 Proj3 Proj4 Proj5 Média final
106696 8.5 0.0 0.0 0.0 0.0 1.7
116724 10.0 10.0 10.0 10.0 10.0 10.0
117205 8.5 0.0 0.0 0.0 0.0 1.7
117842 10.0 10.0 10.0 10.0 10.0 10.0
118893 10.0 10.0 10.0 10.0 10.0 10.0
135582 11.0 10.0 9.5 9.5 10.0 10.0
137017 9.5 10.0 9.5 9.5 0.0 7.7
137260 10.0 10.0 10.0 10.0 10.0 10.0
138684 9.5 10.0 9.5 9.5 0.0 7.7
139490 9.5 9.5 9.5 10.0 9.0 9.5
140922 10.0 10.0 11.0 11.0 0.0 8.4
145781 9.5 10.0 9.5 10.0 9.0 9.6
145882 9.5 10.0 10.0 10.0 8.5 9.6
146810 10.0 10.0 10.0 10.0 10.0 10.0
146987 10.0 10.0 10.0 10.0 0.0 8.0
147091 10.0 10.0 10.0 10.0 0.0 8.0
147623 9.5 10.0 9.5 10.0 9.0 9.6
147775 10.0 10.0 10.0 10.0 10.0 10.0
147922 10.0 10.0 10.0 10.0 0.0 8.0







MC855B





RA Proj1 Proj2 Proj3 Proj4 Proj5 Média final
103158 10.0 10.0 10.5 11.0 10.0 10.0
120263 8.5 0.0 0.0 0.0 0.0 1.7
123153 10.0 10.5 10.0 10.0 10.0 10.0
135749 11.0 11.0 10.0 11.0 10.0 10.0
136242 11.0 11.0 10.0 11.0 10.0 10.0
136734 11.0 11.0 10.0 11.0 10.0 10.0
137036 9.5 9.5 9.5 10.0 9.0 9.5
137268 10.0 10.0 11.0 11.0 0.0 8.4
139455 9.5 9.5 9.5 10.0 9.0 9.5
145444 9.5 10.0 9.5 10.0 9.0 9.6
145539 10.0 10.0 10.0 10.0 9.0 9.8
145574 9.5 10.0 10.0 10.0 8.5 9.6
148234 10.0 10.0 10.0 10.0 10.0 10.0
148914 10.0 10.0 10.0 10.0 9.0 9.8
149053 10.0 10.0 10.0 10.0 9.0 9.8
150547 9.5 10.0 10.0 10.0 8.5 9.6
180879 9.5 10.0 10.0 10.0 8.5 9.6







MC857B





RA Proj1 Proj2 Proj3 Proj4 Proj5 Média final
047027 10.0 10.0 12.0 10.0 10.0 10.0
106289 10.0 9.5 10.0 0.0 9.5 7.8
120884 10.0 10.0 11.0 11.0 0.0 8.4
122128 10.0 10.0 12.0 10.0 10.0 10.0
122314 10.0 10.0 12.0 10.0 10.0 10.0
135494 9.5 11.0 11.0 9.5 10.0 10.0
135723 9.5 11.0 11.0 9.5 10.0 10.0
136034 10.0 10.0 10.5 11.0 10.0 10.0
140647 9.5 11.0 11.0 9.5 10.0 10.0
146898 10.0 10.0 10.5 11.0 10.0 10.0

Sheet 2: Proj1

Grupo RA Data Tema Ambiente Comentários Plano Ref. Complexidade Nota
1 147922 15/09 Filtragem de tweets para construir perfil de candidatos MapReduce e Python Motivação interessante; tema relevante. Entrada de dados a partir do twitter. Apresentação de resultados para o Brasil e Estados Unidos. :-) :-) :-) :-) 10
146997 10
135986 10
138760 10
2 146810 15/09 Felicidade literária Hadoop e Yarn no OpenStack Entrada de dados do Projeto Gutemberg. Abordagem simples que classifica as palavras em positivas e negativas; ótimo trabalho de manipulação dos dados. Comparação com eventos históricos. :-) :-| :-):-) 10
117842 10
147775 10
148234 10
3 136734 20/09 Resumo de discursos políticos MapReduce Uso da extrapolação métrica td-idf e dicionário público. Pré-processamento com retirada de stopwords e stemming. Índices permitem a escolha de parágrafos significativos. Resultados interessantes. :-) :-) :-) :-) :-):-) 11
136242 11
135749 11
135801 11
4 145444 20/09 DistBBp MapReduce Descrição detalhada do algoritmo DistBBp e apresentação da implementação deste algoritmo no Hadoop utilizando MapReduce. Documentação de requisitos para a compilação. :-) :-) :-) 9.5
145781 9.5
147623 9.5
5 118893 15/09 Hadoop Go MapReduce Rastreamento de Pokémons. Processamento utilizando mapreduce de dados obtidos do site Skiplagged. Visualização gráfica dos resultados obtidos. :-) :-) :-):-) 10
116724 10
116928 10
137260 10
6 120263 20/09 K-means MapReduce Descrição detalhada do algoritmo K-means e da implementação em MapReduce deste algoritmo. :-( :-) :-) 8.5
117205 8.5
105441 8.5
106696 8.5
7 138684 20/09 N-Rainhas MapReduce Descrição do problema das N Rainhas e da possível implementação utilizando abordagem Dancing Links. Implementação via backtracking paralelizado. :-) :-) :-) 9.5
137017 9.5
8 106289 20/09 Detecção de similaridade entre linhas de ônibus MapReduce Implementação utilizando MapReduce de algoritmo para verificar similaridades entre linhas de ônibus. Criatividade e motivação de relevância social. :-) :-) :-):-) 10
9 136034 20/09 Word Count englobando livros e autores MapReduce Dados obtidos do Projeto Guttenberg. Descrição detalhada das opções de pré-processamento necessário para alteração do tipo da entrada. Implementação de melhorias, como retirada de palavras irrelevantes e pontuação. :-) :-) :-):-) 10
146898 10
103158 10
24374 10
10 47027 15/09 Fontes de requisições de um servidor da NASA MapReduce e YARN Dados do servidor da NASA e banco de dados de IPs. Visualização gráfica dos resultados. :-) :-) :-):-) 10
91599 10
122128 10
122314 10
137715 10
11 136576 13/09 Grafo de influência MapReduce Definição do problema, apresentação do algoritmo e do código. Estudo de métricas. :-) :-) :-):-) 10
136700 10
123153 10
137748 10
12 135723 13/09 Filtragem de logs de temperatura MapReduce Explicação detalhada do algoritmo e do código implementado. Dados gerados aleatoriamente. :-) :-) :-) 9.5
140647 9.5
135494 9.5
139056 9.5
13 139715 20/09 Comparação sobre notícias de atletas masculinos e femininos MapReduce Textos retirados de www.globeesporte.com. Comparativos sem tratamento, retirando stopwords e com stemming. :-| :-) :-) 9.5
139455 9.5
137036 9.5
139490 9.5
14 140922 20/09 Jogo da vida MapReduce Explicação detalhada do algoritmo e dos desafios encontrados. :-) :-) :-):-) 10
137268 10
121405 10
120884 10
15 145539 20/09 Sudoku Solver Hadoop MapReduce Explicaram implementação do Hadoop, utilizando Dancing Links. Desenvolveram gerador de matrizes de entrada e resolução baseada em backtraking. Comparação de desempenho. Discussão sobre classificação de dificuldade das matrizes. :-) :-| :-):-) 10
146987 10
147091 10
148914 10
149053 10
16 150547 20/09 Configuração de um cluster Spark Spark Não seguiram o plano proposto. Descrição do Spark e de várias tentativas para conseguir configurar um cluster. Aplicação exemplo em Python. :-| :-) :-) 9.5
145574 9.5
145882 9.5
180879 9.5
191891 9.5
17 135582 20/09 Contador de Hashtags Spark Contador de hashtags em tempo real, com possibilidade de filtragem por local/palavras. Boa introdução sobre as ferramentas utilizadas. Obteve dados do twitter, recebidos via socket. Utilizou pandas e matplotlib. Implementação em Python. :-) :-) :-) :-) :-):-) 11
18 139223 13/09 Amigos em comum MapReduce Descrição do problema e implementação da solução de acordo com artigo referenciado. :-) :-) :-) 9.5
146377 9.5

Sheet 3: Proj2

Grupo RA Data Tema Ambiente Comentários Plano Ref. Complexidade Nota
1 147922 06/10 Recomendação de filmes Spark, MLlib Aplicação para recomendação de filmes utilizando o método Least Square e a base de dados do MovieLens. :-) :-):-) :-):-) 10
146997 10
135986 10
138760 10
2 146810 11/10 PageRank Spark e MapReduce Explicação detalhada do algoritmo PageRank. Comparação de desempenho entre MapReduce e Spark, com Spark mais lento. Dados obtidos do SNAP (Stanford Network Analysis Project). :-) :-) :-):-) 10
117842 10
147775 10
148234 10
3 136734 11/10 Análise de sentimentos Spark Classificação das frases em positivas, negativas ou neutras. Utilizaram o Sentiment Labeled Sentences Dataset e Databricks Community Edition. Relataram problemas com a falta de documentação. Avaliaram classificadores. :-):-) :-) :-):-):-) 11
136242 11
135749 11
135801 11
4 145444 13/10 Análise de imagens Spark, TensorFlow Tentaram utilizar Instagram, mas não obtiveram sucesso. Utilizaram outros sites com conteúdo disponível. Aplicaram WordCount após a obtenção de dados do TensorFlow. :-) :-) :-):-) 10
145781 10
147623 10
5 118893 11/10 Filtro para postagens de site de humor. Spark Utilizaram dados do site 9gag. NaiveBayes :-) :-) :-):-) 10
116724 10
116928 10
137260 10
7 138684 11/10 Hive Hive Comparação teórica e prática com bancos de dados tradicionais. Base de dados do MovieLens :-) :-) :-):-) 10
137017 10
9 136034 06/10 Word Count englobando livros e autores pySpark Port da implementação do projeto anterior utilizando pySpark. Implementação de melhorias e comparação de desempenho com MapReduce. :-) :-) :-) 10
146898 10
103158 10
24374 10
10 47027 06/10 Fontes de requisições de um servidor da NASA Spark e Java Port da implementação do projeto anterior utilizando Spark. Comparação entre MapReduce e Spark, incluindo dados de desempenho. :-) :-) :-) 10
91599 10
122128 10
122314 10
137715 10
11 136576 13/10 Grafo de influência Spark, GraphFrame e GraphX Port da implementação do projeto anterior utilizando Spark. Pesquisaram possibilidade de uso do GraphFrame e comentaram os problemas encontrados. Pesquisaram também a possibilidade de uso GraphX e compararam os dois pacotes. Aplicação de métricas e comparação entre Spark e MapReduce. :-) :-):-) :-):-):-) 10.5
136700 10.5
123153 10.5
137748 10.5
12 135723 11/10 Previsão do tempo Spark, MLlib e Mahout Versão em Spark bem mais elaborada do projeto anterior. Uso de Python para pré-processamento de dados obtidos do BDMEP-INMET. Pesquisa sobre o uso de spark-ts e média ARIMA. Modelo para previsão de temperatura e comparação com resultados reais. :-) :-) :-):-):-) 11
140647 11
135494 11
139056 11
13 139715 11/10 Ranqueamento de filmes Spark e Java Dados obtidos do MovieLens. Realizaram mapeamentos e reduções e comentaram os resultados. :-) :-) :-) 9.5
139455 9.5
137036 9.5
139490 9.5
14 140922 11/10 TextRank Spark Classificação de textos em contexto relacionado à avaliação de produtos. :-| :-) :-):-) 10
137268 10
121405 10
120884 10
15 145539 11/10 Classificador de gênero de notícias Spark, MLlib Descreveram desafios para a mineração das notícias, com tentativa de uso da ferramenta Scrapy. Compararam algoritmos básicos. Comentaram sobre a complexidade do uso de MLlib. :-) :-) :-):-) 10
146987 10
147091 10
148914 10
149053 10
16 150547 11/10 Palavras mais utilizadas na Wikipedia Spark Grupo empenhou muitos esforços na configuração do sistema distribuído. Descrição detalhada dos comandos para configuração das máquinas do OpenStack. Aplicação relativamente simples, com dados obtidos da Wikipedia. :-) :-):-) :-):-) 10
145574 10
145882 10
180879 10
17 135582 11/10 Classificação de texto Spark, MLlib Implementação de um classificador utilizando MLlib, Naive Bayes e o 20_newsgroups database. :-):-) :-| :-):-) 10
18 139223 04/10 HADOOP-9295 AbstractMapWritable throws exception when calling readFields() multiple times when the maps contain different class types Bug Descrição de issue antiga, com vários comentários. Executaram teste utilizando código disponibilizado pela pessoa que reportou a issue. Descrição dos testes realizados poderia ter sido mais detalhada. :-) :-) :-) 9.5
136686 9.5
146377 9.5
106289 9.5

119785 20/12 Contador de hashtags Spark Entrega com atraso devido a problemas de saúde. Coleta de dados do Twitter e utilização do Spark Streamming, giter8 e SBT. :-| :-) :-) 10

Sheet 4: Proj3

Grupo RA Data Tipo Tema Comentários Plano Ref. Complexidade Nota
1 147922 27/10 Bug HADOOP-13628 Support to retrieve specific property from configuration via REST API Descrição da issue e dos comentários para a resolução. Disponibilizaram build com o patch. :-) :-) :-):-) 10
146997 10
135986 10
138760 10
2 146810 01/11 Bug HDFS-9909 Can't read file after hdfs restart Descrição da issue e do conceitos de soft e hard leases. Reprodução do bug com código fornecido pelo reporter. Identificaram outra issue que contém patch que soluciona o problema. :-) :-) :-):-) 10
117842 10
147775 10
148234 10
3 136734 03/11 Estudo do código Naive Bayes Apresentação da teoria do NaiveBayes e descrição detalhada de sua implementação no Spark. :-) :-) :-):-) 10
136242 10
135749 10
135801 10
4 145444 03/11 Bug HADOOP-13489 DistCp may incorrectly return success status when the underlying Job failedMAPREDUCE-6441 LocalDistributedCacheManager for concurrent sqoop processes fails to create unique directories Analisaram e descreveram duas issues. Tentaram reproduzir o bug da primeira, mas não obtiveram sucesso. :-) :-) :-) 9.5
145781 9.5
147623 9.5
5 118893 03/11 Bug HADOOP-9295 AbstractMapWritable throws exception when calling readFields() multiple times when the maps contain different class types Descrição de issue antiga, com vários comentários. Descrição detalhada do problema, reprodução do bug e verificação que o patch corrige o bug. :-) :-) :-):-) 10
116724 10
116928 10
137260 10
7 138684 03/11 Bug Hadoop-13586 Hadoop 3.0 build broken on windows Build 3.0 falha no Windows. Grupo deixou um comentário na issue, mas não responderam pergunta feita logo em seguida. :-( :-) :-) :-| 9.5
137017 9.5
9 136034 01/11 Bug SPARK-16575 partition calculation mismatch with sc.binaryFilesMahout-1889 Mahout doesn't work with Spark 2.0 Comentaram processo de mineração de bugs. A primeira issue descrita era um bug com solução proposta. A segunda era um problema de configuração do que o grupo concluiu não ser um bug e deixou comentário no JIRA. :-) :-) :-):-) 10.5
146898 10.5
103158 10.5
24374 10.5
10 47027 01/11 Bug HDFS-8678 Bring back the feature to view chunks of files in the HDFS file browser Descrição da issue e da task umbrella que a contém. Modificação do patch original de acordo com os pedidos feitos nos comentários. Submissão do patch. Contribuição aceita! :-) :-) :-) :-):-):-) 12
91599 12
122128 12
122314 12
137715 12
11 136576 03/11 Bug SPARK-17783 Hide Credentials in CREATE and DESC FORMATTED/EXTENDED a PERSISTENT/TEMP Table for JDBC Descrição de issue recente com bug de segurança em que a password de usuários aparecia em texto claro. Reproduziram o bug e testaram patch disponível. :-) :-) :-):-) 10
136700 10
123153 10
137748 10
12 135723 01/11 Bug HADOOP-12802 local FileContext does not rename .crc file Issue recente, que não recebeu atenção da comunidade. Reproduziram o bug, investigaram o problema e encontraram solução. :-) :-) :-):-):-) 11
140647 11
135494 11
139056 11
13 139715 03/11 Umbrella SPARK-7203 Python API for local linear algebra Descrição da issue umbrella, suas sub-taks e apresentação de testes. :-| :-) :-) 9.5
139455 9.5
137036 9.5
139490 9.5
14 140922 03/11 Bug HADOOP-9295 AbstractMapWritable throws exception when calling readFields() multiple times when the maps contain different class types Descrição de issue antiga, com vários comentários. Grupo identificou issue duplicada (HADOOP-10898) e deixou comentário com esta informação e outras dicas para o reporter. :-) :-) :-):-) 11
137268 11
121405 11
120884 11
15 145539 03/11 Bug SPARK-17957 Calling outer join and na.fill(0) and then inner join will miss rows Bug recente, resolvido durante a análise. Testaram em Ubuntu, Fedora e Mac. Descrição do problema e apresentação de workaround. :-) :-) :-):-) 10
146987 10
147091 10
148914 10
149053 10
16 150547 03/11 Bug SPARK-17890 scala.ScalaReflectionException Bug recente. Problema envolvendo as operações Map e FlatMap. Comparação entre RDDs e DataFrames. Tentativas de reprodução em ambiente linux e mac. :-) :-) :-):-) 10
145574 10
145882 10
180879 10
119785 10
17 135582 03/11 Improvement HADOOP-13754 Hadoop-Azure Update WASB URI format to support SAS token in it Issue recente. Descrição do Improvement proposto, os riscos de segurança associados e soluções para o problema. :-) :-) :-) 9.5
18 139223 01/11 Spark Detecção de similaridade entre linhas de ônibus Port da implementação do projeto 1 para o Spark. Implementação de refinamentos e comparação entre as plataformas para desenvolvimento. :-) :-) :-):-) 10
136686 10
146377 10
106289 10

Sheet 5: Proj4

Grupo RA Data Tipo Tema Comentários Plano Ref. Complexidade Nota
1 147922 24/11 Improvement HADOOP-13639 Support plain text in ConfServlet http response Grupo analisou issue relacionada a do projeto anterior. Conseguiram implementar e testar na versão 2.7.1, mas tiveram problemas com a 3.0.0-alpha2. :-( :-) :-):-):-) 10
146997 10
135986 10
138760 10
2 146810 24/11 New feature HDFS- 9924 [umbrella] Nonblocking HDFS Access Issue com proposta interessante para tentar melhorar o desempenho do HDFS, com relatório contendo resultados não muito favoráveis à proposta. Grupo reproduziu testes em ambiente Single Node. :-) :-) :-):-) 10
117842 10
147775 10
148234 10
3 136734 24/11 Umbrella SPARK-14046 RandomForest improvement umbrella Descrição detalhada das sub-tasks. Contribuição em uma delas, colocando argumentos para dizer que a sub-task já estaria resolvida. :-) :-) :-):-) 11
136242 11
135749 11
135801 11
4 145444 24/11 Umbrella TRAFODION-2157 add built-in support of popular MySQL functions Explicação do sistema, descrição da issue e das subtasks. :-) :-) :-):-) 10
145781 10
147623 10
5 118893 29/11 Improvement HADOOP-9953 Improve RPC server throughput Umbrella para melhorar função básica de comunicação. Exemplos de código extremamente ineficiente... ;-) :-) :-) :-):-) 10
116724 10
116928 10
137260 10
7 138684 29/11
Trafodion Overview do projeto Trafodion, breve comparação com Hive e análise em alto nível de várias issues. :-) :-) :-) 9.5
137017 9.5
9 136034 06/12 Wish SPARK-17734 inner equi-join shorthand that returns Datasets, like DataFrame already hasHDFS-9896 WebHDFS API may return invalid JSONHDFS-10176 WebHdfs LISTSTATUS does not offer any sorting Descrição e análise de três issues. Na primeira, investigaram o contexto e sugeriram won't fix. Na segunda, detectaram que a issue está resolvida nas versões mais novas, escreveram comentário e a issue foi considerada resolvida. Investigações e tentativa de resolver a terceira issues. :-) :-) :-):-) 11
146898 11
103158 11
24374 11
10 47027
Improvement New Feature HDFS-7588 Improve the HDFS Web UI browser to allow chowning / chmoding, creating dirs and uploading files[umbrella] WebHDFS: a complete FileSystem implementation for accessing HDFS over HTTP Apresentação da issue umbrella que contém a sub-task resolvida no projeto anterior. :-| :-):-) :-):-) 10
91599 10
122128 10
122314 10
137715 10
11 136576 24/11 Umbrella SPARK-4587 Model export/import Descrição da issue, sua relevância e a abordagem elegante encontrada pela comunidade para poder prover este mecanismo. :-) :-) :-):-) 10
136700 10
123153 10
137748 10
12 135723 29/11 Umbrella SPARK-15834 Time zone / locale sensitivity umbrella Exemplo de umbrella issue que trata de um bug difícil de contornar/arrumar. Reproduziram quase todas as sub-tasks. :-( :-) :-):-) 9.5
140647 9.5
135494 9.5
139056 9.5
13 139715 29/11 Bug SPARK-4105 FAILED_TO_UNCOMPRESS(5) errors when fetching shuffle data with sort-based shuffle Apresentação de bug de difícil reprodução (não determinístico e característica de grande quantidade de dados). Referência interessante comenta este e outros problemas de Spark. :-) :-) :-):-) 10
139455 10
137036 10
139490 10
14 140922 29/11 New Feature HADOOP-13345 S3Guard: Improved Consistency for S3A Objetivo da issue é lidar com as limitações do modelo de consistência eventual oferecido pelo S3. Explicação dos conceitos envolvidos, das discussões levantadas e das abordagens propostas. :-) :-) :-):-):-) 11
137268 11
121405 11
120884 11
15 145539 29/11 Umbrella SPARK-13964 Feature hashing improvements Issue discute limitações e possíveis melhorias no uso de funções de hashing pelo Spark. :-) :-):-) :-):-) 10
146987 10
147091 10
148914 10
149053 10
16 150547 29/11 Umbrella SPARK-15834 Time zone / locale sensitivity umbrella Exemplo de umbrella issue que trata de um bug difícil de contornar/arrumar. Descrição de todas as sub-tasks. :-) :-| :-):-) 10
145574 10
145882 10
180879 10
119785 10
17 135582 29/11 Improvement HADOOP-13691 remove build user and date from various hadoop web UI Descrição da issue e da divergência de opinião entre as pessoas que fizeram comentários. Apresentação de possíveis soluções. :-) :-| :-) 9.5

Sheet 6: Proj5

Grupo RA Data Tipo Tema Comentários Plano Ref. Complexidade Nota
2 146810 15/12 Appl Spark Classificador de textos Dataset de artigos da Reuters de 1987. Comparação entre os algoritmos Naive Bayes e Logistic Regression e discussão sobre os resultados obtidos. :-) :-):-) :-):-) 10.0
117842 10.0
147775 10.0
148234 10.0
3 136734 13/12 Appl TensorFlow e Spark Deep Learning e Spark Apresentação do conceito de deep learning, da ferramenta TensorFlow e de sua integração com Spark. Apresentação de resultados para reconhecimentos de caracteres e dificuldades para implementação de classificador de raças de cães. :-):-) :-) :-):-) 10.0
136242 10.0
135749 10.0
135801 10.0
4 145444 13/12 Bug HDFS-8872 Reporting of missing blocks is different in fsck and namenode ui/metasave Descrição de issue já resolvida que lida com problema de inconsistência entre a saída do fsck e do namenode ui. :-( :-) :-) 9.0
145781 9.0
147623 9.0
5 118893 15/12 Appl Spark Classificador de tweets sobre tema polêmico (Bolsonaro) Entrada de dados a partir do twitter. Classificação manual e treino offline. Uso do scikit e regressão logística. :-| :-) :-):-) 10.0
116724 10.0
116928 10.0
137260 10.0
9 136034 20/12 Appl Spark Classificador de autores Reutilizaram dataset do projeto Gutemberg e parte do código dos primeiros projetos. Implementaram classificador para detectar o autor dos livros. Compararam Naive Bayes e Random Forest. :-) :-) :-):-) 10.0
146898 10.0
103158 10.0
24374 10.0
10 47027 20/12
HIVE Explicação detalhada do projeto HIVE, incluindo testes e detalhes de armazenamento das tabelas e metadados. :-| :-) :-):-) 10.0
91599 10.0
122128 10.0
122314 10.0
137715 10.0
11 136576 06/12 Umbrella SPARK-14046 RandomForest improvement umbrella Introdução sobre modelo RandomForest e apresentação dos problemas e sugestões das sub-tasks relacionadas. :-) :-) :-):-) 10.0
136700 10.0
123153 10.0
137748 10.0
12 135723 20/12 Bug SPARK-18715 Fix wrong AIC calculation in Binomial GLM Análise de bug recente, já resolvido relacionado a aprendizado de máquina. Fizeram testes com e sem a solução e compararam com resultados obtidos em R. :-( :-):-) :-):-) 10.0
140647 10.0
135494 10.0
139056 10.0
13 139715 20/12 Umbrella SPARK-5575 Artificial neural networks for MLlib deep learning Descrição dos requisitos e funcionalidades necessários para inclusão de vários tipos de redes neurais no Spark. :-( :-) :-) 9.0
139455 9.0
137036 9.0
139490 9.0

121405 20/12
HDFS x S3 Aprofundamento de uma questão relacionada ao projeto anterior. Comparação entre HDFS e S3 envolvendo aspectos como escalabilidade, desempenho, custo e segurança. :-( :-):-) :-):-) 10.0
15 145539 20/12 Bugs SPARK-17913 Filter/join expressions can return incorrect results when comparing strings to longs SPARK-18555 na.fill miss up original values in long integers Descrição de dois bugs com problemas relacionados a tipos e precisão. Reproduziram os bugs e sugeriram workarounds. :-( :-( :-) 9.0
148914 9.0
149053 9.0
16 150547 20/12 Spark Sparkit-learn Estudo do funcionamento básico da biblioteca Sparkit-learn. Apresentação dos conceitos básicos e alguns testes. :-( :-| :-| 8.5
145574 8.5
145882 8.5
180879 8.5
119785 8.5
17 135582 20/12 Appl Spark Classificador de imagens Implementou um classificador de imagens utilizando Spark e SVM (Support Vector Machine). Utilizou dataset CIFAR-10. :-) :-| :-):-) 10.0
18 139223 15/12 Bug HIVE-14971 Hive returns incorrect result when NOT used with <=> (null safe equals) operator Introdução sobre Hive. Apresentação do bug descrito em uma issue e reprodução do problema. Utilizaram Hortonworks Sandbox. :-| :-):-) :-) 9.5
136686 9.5
146377 9.5
106289 9.5