Grupo |
RA |
Data |
Tema |
Ambiente |
Comentários |
Plano |
Ref. |
Complexidade |
Nota |
1 |
147922 |
15/09 |
Filtragem de tweets para construir perfil de candidatos |
MapReduce e Python |
Motivação interessante; tema relevante. Entrada de dados a partir do twitter. Apresentação de resultados para o Brasil e Estados Unidos. |
:-) |
:-) |
:-) :-) |
10 |
146997 |
10 |
135986 |
10 |
138760 |
10 |
2 |
146810 |
15/09 |
Felicidade literária |
Hadoop e Yarn no OpenStack |
Entrada de dados do Projeto Gutemberg. Abordagem simples que classifica as palavras em positivas e negativas; ótimo trabalho de manipulação dos dados. Comparação com eventos históricos. |
:-) |
:-| |
:-):-) |
10 |
117842 |
10 |
147775 |
10 |
148234 |
10 |
3 |
136734 |
20/09 |
Resumo de discursos políticos |
MapReduce |
Uso da extrapolação métrica td-idf e dicionário público. Pré-processamento com retirada de stopwords e stemming. Índices permitem a escolha de parágrafos significativos. Resultados interessantes. |
:-) :-) |
:-) |
:-) :-):-) |
11 |
136242 |
11 |
135749 |
11 |
135801 |
11 |
4 |
145444 |
20/09 |
DistBBp |
MapReduce |
Descrição detalhada do algoritmo DistBBp e apresentação da implementação deste algoritmo no Hadoop utilizando MapReduce. Documentação de requisitos para a compilação. |
:-) |
:-) |
:-) |
9.5 |
145781 |
9.5 |
147623 |
9.5 |
5 |
118893 |
15/09 |
Hadoop Go |
MapReduce |
Rastreamento de Pokémons. Processamento utilizando mapreduce de dados obtidos do site Skiplagged. Visualização gráfica dos resultados obtidos. |
:-) |
:-) |
:-):-) |
10 |
116724 |
10 |
116928 |
10 |
137260 |
10 |
6 |
120263 |
20/09 |
K-means |
MapReduce |
Descrição detalhada do algoritmo K-means e da implementação em MapReduce deste algoritmo. |
:-( |
:-) |
:-) |
8.5 |
117205 |
8.5 |
105441 |
8.5 |
106696 |
8.5 |
7 |
138684 |
20/09 |
N-Rainhas |
MapReduce |
Descrição do problema das N Rainhas e da possível implementação utilizando abordagem Dancing Links. Implementação via backtracking paralelizado. |
:-) |
:-) |
:-) |
9.5 |
137017 |
9.5 |
8 |
106289 |
20/09 |
Detecção de similaridade entre linhas de ônibus |
MapReduce |
Implementação utilizando MapReduce de algoritmo para verificar similaridades entre linhas de ônibus. Criatividade e motivação de relevância social. |
:-) |
:-) |
:-):-) |
10 |
9 |
136034 |
20/09 |
Word Count englobando livros e autores |
MapReduce |
Dados obtidos do Projeto Guttenberg. Descrição detalhada das opções de pré-processamento necessário para alteração do tipo da entrada. Implementação de melhorias, como retirada de palavras irrelevantes e pontuação. |
:-) |
:-) |
:-):-) |
10 |
146898 |
10 |
103158 |
10 |
24374 |
10 |
10 |
47027 |
15/09 |
Fontes de requisições de um servidor da NASA |
MapReduce e YARN |
Dados do servidor da NASA e banco de dados de IPs. Visualização gráfica dos resultados. |
:-) |
:-) |
:-):-) |
10 |
91599 |
10 |
122128 |
10 |
122314 |
10 |
137715 |
10 |
11 |
136576 |
13/09 |
Grafo de influência |
MapReduce |
Definição do problema, apresentação do algoritmo e do código. Estudo de métricas. |
:-) |
:-) |
:-):-) |
10 |
136700 |
10 |
123153 |
10 |
137748 |
10 |
12 |
135723 |
13/09 |
Filtragem de logs de temperatura |
MapReduce |
Explicação detalhada do algoritmo e do código implementado. Dados gerados aleatoriamente. |
:-) |
:-) |
:-) |
9.5 |
140647 |
9.5 |
135494 |
9.5 |
139056 |
9.5 |
13 |
139715 |
20/09 |
Comparação sobre notícias de atletas masculinos e femininos |
MapReduce |
Textos retirados de www.globeesporte.com. Comparativos sem tratamento, retirando stopwords e com stemming. |
:-| |
:-) |
:-) |
9.5 |
139455 |
9.5 |
137036 |
9.5 |
139490 |
9.5 |
14 |
140922 |
20/09 |
Jogo da vida |
MapReduce |
Explicação detalhada do algoritmo e dos desafios encontrados. |
:-) |
:-) |
:-):-) |
10 |
137268 |
10 |
121405 |
10 |
120884 |
10 |
15 |
145539 |
20/09 |
Sudoku Solver |
Hadoop MapReduce |
Explicaram implementação do Hadoop, utilizando Dancing Links. Desenvolveram gerador de matrizes de entrada e resolução baseada em backtraking. Comparação de desempenho. Discussão sobre classificação de dificuldade das matrizes. |
:-) |
:-| |
:-):-) |
10 |
146987 |
10 |
147091 |
10 |
148914 |
10 |
149053 |
10 |
16 |
150547 |
20/09 |
Configuração de um cluster Spark |
Spark |
Não seguiram o plano proposto. Descrição do Spark e de várias tentativas para conseguir configurar um cluster. Aplicação exemplo em Python. |
:-| |
:-) |
:-) |
9.5 |
145574 |
9.5 |
145882 |
9.5 |
180879 |
9.5 |
191891 |
9.5 |
17 |
135582 |
20/09 |
Contador de Hashtags |
Spark |
Contador de hashtags em tempo real, com possibilidade de filtragem por local/palavras. Boa introdução sobre as ferramentas utilizadas. Obteve dados do twitter, recebidos via socket. Utilizou pandas e matplotlib. Implementação em Python. |
:-) :-) |
:-) |
:-) :-):-) |
11 |
18 |
139223 |
13/09 |
Amigos em comum |
MapReduce |
Descrição do problema e implementação da solução de acordo com artigo referenciado. |
:-) |
:-) |
:-) |
9.5 |
146377 |
9.5 |
Grupo |
RA |
Data |
Tema |
Ambiente |
Comentários |
Plano |
Ref. |
Complexidade |
Nota |
1 |
147922 |
06/10 |
Recomendação de filmes |
Spark, MLlib |
Aplicação para recomendação de filmes utilizando o método Least Square e a base de dados do MovieLens. |
:-) |
:-):-) |
:-):-) |
10 |
146997 |
10 |
135986 |
10 |
138760 |
10 |
2 |
146810 |
11/10 |
PageRank |
Spark e MapReduce |
Explicação detalhada do algoritmo PageRank. Comparação de desempenho entre MapReduce e Spark, com Spark mais lento. Dados obtidos do SNAP (Stanford Network Analysis Project). |
:-) |
:-) |
:-):-) |
10 |
117842 |
10 |
147775 |
10 |
148234 |
10 |
3 |
136734 |
11/10 |
Análise de sentimentos |
Spark |
Classificação das frases em positivas, negativas ou neutras. Utilizaram o Sentiment Labeled Sentences Dataset e Databricks Community Edition. Relataram problemas com a falta de documentação. Avaliaram classificadores. |
:-):-) |
:-) |
:-):-):-) |
11 |
136242 |
11 |
135749 |
11 |
135801 |
11 |
4 |
145444 |
13/10 |
Análise de imagens |
Spark, TensorFlow |
Tentaram utilizar Instagram, mas não obtiveram sucesso. Utilizaram outros sites com conteúdo disponível. Aplicaram WordCount após a obtenção de dados do TensorFlow. |
:-) |
:-) |
:-):-) |
10 |
145781 |
10 |
147623 |
10 |
5 |
118893 |
11/10 |
Filtro para postagens de site de humor. |
Spark |
Utilizaram dados do site 9gag. NaiveBayes |
:-) |
:-) |
:-):-) |
10 |
116724 |
10 |
116928 |
10 |
137260 |
10 |
7 |
138684 |
11/10 |
Hive |
Hive |
Comparação teórica e prática com bancos de dados tradicionais. Base de dados do MovieLens |
:-) |
:-) |
:-):-) |
10 |
137017 |
10 |
9 |
136034 |
06/10 |
Word Count englobando livros e autores |
pySpark |
Port da implementação do projeto anterior utilizando pySpark. Implementação de melhorias e comparação de desempenho com MapReduce. |
:-) |
:-) |
:-) |
10 |
146898 |
10 |
103158 |
10 |
24374 |
10 |
10 |
47027 |
06/10 |
Fontes de requisições de um servidor da NASA |
Spark e Java |
Port da implementação do projeto anterior utilizando Spark. Comparação entre MapReduce e Spark, incluindo dados de desempenho. |
:-) |
:-) |
:-) |
10 |
91599 |
10 |
122128 |
10 |
122314 |
10 |
137715 |
10 |
11 |
136576 |
13/10 |
Grafo de influência |
Spark, GraphFrame e GraphX |
Port da implementação do projeto anterior utilizando Spark. Pesquisaram possibilidade de uso do GraphFrame e comentaram os problemas encontrados. Pesquisaram também a possibilidade de uso GraphX e compararam os dois pacotes. Aplicação de métricas e comparação entre Spark e MapReduce. |
:-) |
:-):-) |
:-):-):-) |
10.5 |
136700 |
10.5 |
123153 |
10.5 |
137748 |
10.5 |
12 |
135723 |
11/10 |
Previsão do tempo |
Spark, MLlib e Mahout |
Versão em Spark bem mais elaborada do projeto anterior. Uso de Python para pré-processamento de dados obtidos do BDMEP-INMET. Pesquisa sobre o uso de spark-ts e média ARIMA. Modelo para previsão de temperatura e comparação com resultados reais. |
:-) |
:-) |
:-):-):-) |
11 |
140647 |
11 |
135494 |
11 |
139056 |
11 |
13 |
139715 |
11/10 |
Ranqueamento de filmes |
Spark e Java |
Dados obtidos do MovieLens. Realizaram mapeamentos e reduções e comentaram os resultados. |
:-) |
:-) |
:-) |
9.5 |
139455 |
9.5 |
137036 |
9.5 |
139490 |
9.5 |
14 |
140922 |
11/10 |
TextRank |
Spark |
Classificação de textos em contexto relacionado à avaliação de produtos. |
:-| |
:-) |
:-):-) |
10 |
137268 |
10 |
121405 |
10 |
120884 |
10 |
15 |
145539 |
11/10 |
Classificador de gênero de notícias |
Spark, MLlib |
Descreveram desafios para a mineração das notícias, com tentativa de uso da ferramenta Scrapy. Compararam algoritmos básicos. Comentaram sobre a complexidade do uso de MLlib. |
:-) |
:-) |
:-):-) |
10 |
146987 |
10 |
147091 |
10 |
148914 |
10 |
149053 |
10 |
16 |
150547 |
11/10 |
Palavras mais utilizadas na Wikipedia |
Spark |
Grupo empenhou muitos esforços na configuração do sistema distribuído. Descrição detalhada dos comandos para configuração das máquinas do OpenStack. Aplicação relativamente simples, com dados obtidos da Wikipedia. |
:-) |
:-):-) |
:-):-) |
10 |
145574 |
10 |
145882 |
10 |
180879 |
10 |
17 |
135582 |
11/10 |
Classificação de texto |
Spark, MLlib |
Implementação de um classificador utilizando MLlib, Naive Bayes e o 20_newsgroups database. |
:-):-) |
:-| |
:-):-) |
10 |
18 |
139223 |
04/10 |
HADOOP-9295 AbstractMapWritable throws exception when calling readFields() multiple times when the maps contain different class types |
Bug |
Descrição de issue antiga, com vários comentários. Executaram teste utilizando código disponibilizado pela pessoa que reportou a issue. Descrição dos testes realizados poderia ter sido mais detalhada. |
:-) |
:-) |
:-) |
9.5 |
136686 |
9.5 |
146377 |
9.5 |
106289 |
9.5 |
|
119785 |
20/12 |
Contador de hashtags |
Spark |
Entrega com atraso devido a problemas de saúde. Coleta de dados do Twitter e utilização do Spark Streamming, giter8 e SBT. |
:-| |
:-) |
:-) |
10 |
Grupo |
RA |
Data |
Tipo |
Tema |
Comentários |
Plano |
Ref. |
Complexidade |
Nota |
1 |
147922 |
27/10 |
Bug |
HADOOP-13628 Support to retrieve specific property from configuration via REST API |
Descrição da issue e dos comentários para a resolução. Disponibilizaram build com o patch. |
:-) |
:-) |
:-):-) |
10 |
146997 |
10 |
135986 |
10 |
138760 |
10 |
2 |
146810 |
01/11 |
Bug |
HDFS-9909 Can't read file after hdfs restart |
Descrição da issue e do conceitos de soft e hard leases. Reprodução do bug com código fornecido pelo reporter. Identificaram outra issue que contém patch que soluciona o problema. |
:-) |
:-) |
:-):-) |
10 |
117842 |
10 |
147775 |
10 |
148234 |
10 |
3 |
136734 |
03/11 |
Estudo do código |
Naive Bayes |
Apresentação da teoria do NaiveBayes e descrição detalhada de sua implementação no Spark. |
:-) |
:-) |
:-):-) |
10 |
136242 |
10 |
135749 |
10 |
135801 |
10 |
4 |
145444 |
03/11 |
Bug |
HADOOP-13489 DistCp may incorrectly return success status when the underlying Job failedMAPREDUCE-6441 LocalDistributedCacheManager for concurrent sqoop processes fails to create unique directories |
Analisaram e descreveram duas issues. Tentaram reproduzir o bug da primeira, mas não obtiveram sucesso. |
:-) |
:-) |
:-) |
9.5 |
145781 |
9.5 |
147623 |
9.5 |
5 |
118893 |
03/11 |
Bug |
HADOOP-9295 AbstractMapWritable throws exception when calling readFields() multiple times when the maps contain different class types |
Descrição de issue antiga, com vários comentários. Descrição detalhada do problema, reprodução do bug e verificação que o patch corrige o bug. |
:-) |
:-) |
:-):-) |
10 |
116724 |
10 |
116928 |
10 |
137260 |
10 |
7 |
138684 |
03/11 |
Bug |
Hadoop-13586 Hadoop 3.0 build broken on windows |
Build 3.0 falha no Windows. Grupo deixou um comentário na issue, mas não responderam pergunta feita logo em seguida. :-( |
:-) |
:-) |
:-| |
9.5 |
137017 |
9.5 |
9 |
136034 |
01/11 |
Bug |
SPARK-16575 partition calculation mismatch with sc.binaryFilesMahout-1889 Mahout doesn't work with Spark 2.0 |
Comentaram processo de mineração de bugs. A primeira issue descrita era um bug com solução proposta. A segunda era um problema de configuração do que o grupo concluiu não ser um bug e deixou comentário no JIRA. |
:-) |
:-) |
:-):-) |
10.5 |
146898 |
10.5 |
103158 |
10.5 |
24374 |
10.5 |
10 |
47027 |
01/11 |
Bug |
HDFS-8678 Bring back the feature to view chunks of files in the HDFS file browser |
Descrição da issue e da task umbrella que a contém. Modificação do patch original de acordo com os pedidos feitos nos comentários. Submissão do patch. Contribuição aceita! :-) |
:-) |
:-) |
:-):-):-) |
12 |
91599 |
12 |
122128 |
12 |
122314 |
12 |
137715 |
12 |
11 |
136576 |
03/11 |
Bug |
SPARK-17783 Hide Credentials in CREATE and DESC FORMATTED/EXTENDED a PERSISTENT/TEMP Table for JDBC |
Descrição de issue recente com bug de segurança em que a password de usuários aparecia em texto claro. Reproduziram o bug e testaram patch disponível. |
:-) |
:-) |
:-):-) |
10 |
136700 |
10 |
123153 |
10 |
137748 |
10 |
12 |
135723 |
01/11 |
Bug |
HADOOP-12802 local FileContext does not rename .crc file |
Issue recente, que não recebeu atenção da comunidade. Reproduziram o bug, investigaram o problema e encontraram solução. |
:-) |
:-) |
:-):-):-) |
11 |
140647 |
11 |
135494 |
11 |
139056 |
11 |
13 |
139715 |
03/11 |
Umbrella |
SPARK-7203 Python API for local linear algebra |
Descrição da issue umbrella, suas sub-taks e apresentação de testes. |
:-| |
:-) |
:-) |
9.5 |
139455 |
9.5 |
137036 |
9.5 |
139490 |
9.5 |
14 |
140922 |
03/11 |
Bug |
HADOOP-9295 AbstractMapWritable throws exception when calling readFields() multiple times when the maps contain different class types |
Descrição de issue antiga, com vários comentários. Grupo identificou issue duplicada (HADOOP-10898) e deixou comentário com esta informação e outras dicas para o reporter. |
:-) |
:-) |
:-):-) |
11 |
137268 |
11 |
121405 |
11 |
120884 |
11 |
15 |
145539 |
03/11 |
Bug |
SPARK-17957 Calling outer join and na.fill(0) and then inner join will miss rows |
Bug recente, resolvido durante a análise. Testaram em Ubuntu, Fedora e Mac. Descrição do problema e apresentação de workaround. |
:-) |
:-) |
:-):-) |
10 |
146987 |
10 |
147091 |
10 |
148914 |
10 |
149053 |
10 |
16 |
150547 |
03/11 |
Bug |
SPARK-17890 scala.ScalaReflectionException |
Bug recente. Problema envolvendo as operações Map e FlatMap. Comparação entre RDDs e DataFrames. Tentativas de reprodução em ambiente linux e mac. |
:-) |
:-) |
:-):-) |
10 |
145574 |
10 |
145882 |
10 |
180879 |
10 |
119785 |
10 |
17 |
135582 |
03/11 |
Improvement |
HADOOP-13754 Hadoop-Azure Update WASB URI format to support SAS token in it |
Issue recente. Descrição do Improvement proposto, os riscos de segurança associados e soluções para o problema. |
:-) |
:-) |
:-) |
9.5 |
18 |
139223 |
01/11 |
Spark |
Detecção de similaridade entre linhas de ônibus |
Port da implementação do projeto 1 para o Spark. Implementação de refinamentos e comparação entre as plataformas para desenvolvimento. |
:-) |
:-) |
:-):-) |
10 |
136686 |
10 |
146377 |
10 |
106289 |
10 |
Grupo |
RA |
Data |
Tipo |
Tema |
Comentários |
Plano |
Ref. |
Complexidade |
Nota |
1 |
147922 |
24/11 |
Improvement |
HADOOP-13639 Support plain text in ConfServlet http response |
Grupo analisou issue relacionada a do projeto anterior. Conseguiram implementar e testar na versão 2.7.1, mas tiveram problemas com a 3.0.0-alpha2. |
:-( |
:-) |
:-):-):-) |
10 |
146997 |
10 |
135986 |
10 |
138760 |
10 |
2 |
146810 |
24/11 |
New feature |
HDFS- 9924 [umbrella] Nonblocking HDFS Access |
Issue com proposta interessante para tentar melhorar o desempenho do HDFS, com relatório contendo resultados não muito favoráveis à proposta. Grupo reproduziu testes em ambiente Single Node. |
:-) |
:-) |
:-):-) |
10 |
117842 |
10 |
147775 |
10 |
148234 |
10 |
3 |
136734 |
24/11 |
Umbrella |
SPARK-14046 RandomForest improvement umbrella |
Descrição detalhada das sub-tasks. Contribuição em uma delas, colocando argumentos para dizer que a sub-task já estaria resolvida. |
:-) |
:-) |
:-):-) |
11 |
136242 |
11 |
135749 |
11 |
135801 |
11 |
4 |
145444 |
24/11 |
Umbrella |
TRAFODION-2157 add built-in support of popular MySQL functions |
Explicação do sistema, descrição da issue e das subtasks. |
:-) |
:-) |
:-):-) |
10 |
145781 |
10 |
147623 |
10 |
5 |
118893 |
29/11 |
Improvement |
HADOOP-9953 Improve RPC server throughput |
Umbrella para melhorar função básica de comunicação. Exemplos de código extremamente ineficiente... ;-) |
:-) |
:-) |
:-):-) |
10 |
116724 |
10 |
116928 |
10 |
137260 |
10 |
7 |
138684 |
29/11 |
|
Trafodion |
Overview do projeto Trafodion, breve comparação com Hive e análise em alto nível de várias issues. |
:-) |
:-) |
:-) |
9.5 |
137017 |
9.5 |
9 |
136034 |
06/12 |
Wish |
SPARK-17734 inner equi-join shorthand that returns Datasets, like DataFrame already hasHDFS-9896 WebHDFS API may return invalid JSONHDFS-10176 WebHdfs LISTSTATUS does not offer any sorting |
Descrição e análise de três issues. Na primeira, investigaram o contexto e sugeriram won't fix. Na segunda, detectaram que a issue está resolvida nas versões mais novas, escreveram comentário e a issue foi considerada resolvida. Investigações e tentativa de resolver a terceira issues. |
:-) |
:-) |
:-):-) |
11 |
146898 |
11 |
103158 |
11 |
24374 |
11 |
10 |
47027 |
|
Improvement New Feature |
HDFS-7588 Improve the HDFS Web UI browser to allow chowning / chmoding, creating dirs and uploading files[umbrella] WebHDFS: a complete FileSystem implementation for accessing HDFS over HTTP |
Apresentação da issue umbrella que contém a sub-task resolvida no projeto anterior. |
:-| |
:-):-) |
:-):-) |
10 |
91599 |
10 |
122128 |
10 |
122314 |
10 |
137715 |
10 |
11 |
136576 |
24/11 |
Umbrella |
SPARK-4587 Model export/import |
Descrição da issue, sua relevância e a abordagem elegante encontrada pela comunidade para poder prover este mecanismo. |
:-) |
:-) |
:-):-) |
10 |
136700 |
10 |
123153 |
10 |
137748 |
10 |
12 |
135723 |
29/11 |
Umbrella |
SPARK-15834 Time zone / locale sensitivity umbrella |
Exemplo de umbrella issue que trata de um bug difícil de contornar/arrumar. Reproduziram quase todas as sub-tasks. |
:-( |
:-) |
:-):-) |
9.5 |
140647 |
9.5 |
135494 |
9.5 |
139056 |
9.5 |
13 |
139715 |
29/11 |
Bug |
SPARK-4105 FAILED_TO_UNCOMPRESS(5) errors when fetching shuffle data with sort-based shuffle |
Apresentação de bug de difícil reprodução (não determinístico e característica de grande quantidade de dados). Referência interessante comenta este e outros problemas de Spark. |
:-) |
:-) |
:-):-) |
10 |
139455 |
10 |
137036 |
10 |
139490 |
10 |
14 |
140922 |
29/11 |
New Feature |
HADOOP-13345 S3Guard: Improved Consistency for S3A |
Objetivo da issue é lidar com as limitações do modelo de consistência eventual oferecido pelo S3. Explicação dos conceitos envolvidos, das discussões levantadas e das abordagens propostas. |
:-) |
:-) |
:-):-):-) |
11 |
137268 |
11 |
121405 |
11 |
120884 |
11 |
15 |
145539 |
29/11 |
Umbrella |
SPARK-13964 Feature hashing improvements |
Issue discute limitações e possíveis melhorias no uso de funções de hashing pelo Spark. |
:-) |
:-):-) |
:-):-) |
10 |
146987 |
10 |
147091 |
10 |
148914 |
10 |
149053 |
10 |
16 |
150547 |
29/11 |
Umbrella |
SPARK-15834 Time zone / locale sensitivity umbrella |
Exemplo de umbrella issue que trata de um bug difícil de contornar/arrumar. Descrição de todas as sub-tasks. |
:-) |
:-| |
:-):-) |
10 |
145574 |
10 |
145882 |
10 |
180879 |
10 |
119785 |
10 |
17 |
135582 |
29/11 |
Improvement |
HADOOP-13691 remove build user and date from various hadoop web UI |
Descrição da issue e da divergência de opinião entre as pessoas que fizeram comentários. Apresentação de possíveis soluções. |
:-) |
:-| |
:-) |
9.5 |
Grupo |
RA |
Data |
Tipo |
Tema |
Comentários |
Plano |
Ref. |
Complexidade |
Nota |
2 |
146810 |
15/12 |
Appl Spark |
Classificador de textos |
Dataset de artigos da Reuters de 1987. Comparação entre os algoritmos Naive Bayes e Logistic Regression e discussão sobre os resultados obtidos. |
:-) |
:-):-) |
:-):-) |
10.0 |
117842 |
10.0 |
147775 |
10.0 |
148234 |
10.0 |
3 |
136734 |
13/12 |
Appl TensorFlow e Spark |
Deep Learning e Spark |
Apresentação do conceito de deep learning, da ferramenta TensorFlow e de sua integração com Spark. Apresentação de resultados para reconhecimentos de caracteres e dificuldades para implementação de classificador de raças de cães. |
:-):-) |
:-) |
:-):-) |
10.0 |
136242 |
10.0 |
135749 |
10.0 |
135801 |
10.0 |
4 |
145444 |
13/12 |
Bug |
HDFS-8872 Reporting of missing blocks is different in fsck and namenode ui/metasave |
Descrição de issue já resolvida que lida com problema de inconsistência entre a saída do fsck e do namenode ui. |
:-( |
:-) |
:-) |
9.0 |
145781 |
9.0 |
147623 |
9.0 |
5 |
118893 |
15/12 |
Appl Spark |
Classificador de tweets sobre tema polêmico (Bolsonaro) |
Entrada de dados a partir do twitter. Classificação manual e treino offline. Uso do scikit e regressão logística. |
:-| |
:-) |
:-):-) |
10.0 |
116724 |
10.0 |
116928 |
10.0 |
137260 |
10.0 |
9 |
136034 |
20/12 |
Appl Spark |
Classificador de autores |
Reutilizaram dataset do projeto Gutemberg e parte do código dos primeiros projetos. Implementaram classificador para detectar o autor dos livros. Compararam Naive Bayes e Random Forest. |
:-) |
:-) |
:-):-) |
10.0 |
146898 |
10.0 |
103158 |
10.0 |
24374 |
10.0 |
10 |
47027 |
20/12 |
|
HIVE |
Explicação detalhada do projeto HIVE, incluindo testes e detalhes de armazenamento das tabelas e metadados. |
:-| |
:-) |
:-):-) |
10.0 |
91599 |
10.0 |
122128 |
10.0 |
122314 |
10.0 |
137715 |
10.0 |
11 |
136576 |
06/12 |
Umbrella |
SPARK-14046 RandomForest improvement umbrella |
Introdução sobre modelo RandomForest e apresentação dos problemas e sugestões das sub-tasks relacionadas. |
:-) |
:-) |
:-):-) |
10.0 |
136700 |
10.0 |
123153 |
10.0 |
137748 |
10.0 |
12 |
135723 |
20/12 |
Bug |
SPARK-18715 Fix wrong AIC calculation in Binomial GLM |
Análise de bug recente, já resolvido relacionado a aprendizado de máquina. Fizeram testes com e sem a solução e compararam com resultados obtidos em R. |
:-( |
:-):-) |
:-):-) |
10.0 |
140647 |
10.0 |
135494 |
10.0 |
139056 |
10.0 |
13 |
139715 |
20/12 |
Umbrella |
SPARK-5575 Artificial neural networks for MLlib deep learning |
Descrição dos requisitos e funcionalidades necessários para inclusão de vários tipos de redes neurais no Spark. |
:-( |
:-) |
:-) |
9.0 |
139455 |
9.0 |
137036 |
9.0 |
139490 |
9.0 |
|
121405 |
20/12 |
|
HDFS x S3 |
Aprofundamento de uma questão relacionada ao projeto anterior. Comparação entre HDFS e S3 envolvendo aspectos como escalabilidade, desempenho, custo e segurança. |
:-( |
:-):-) |
:-):-) |
10.0 |
15 |
145539 |
20/12 |
Bugs |
SPARK-17913 Filter/join expressions can return incorrect results when comparing strings to longs SPARK-18555 na.fill miss up original values in long integers |
Descrição de dois bugs com problemas relacionados a tipos e precisão. Reproduziram os bugs e sugeriram workarounds. |
:-( |
:-( |
:-) |
9.0 |
148914 |
9.0 |
149053 |
9.0 |
16 |
150547 |
20/12 |
Spark |
Sparkit-learn |
Estudo do funcionamento básico da biblioteca Sparkit-learn. Apresentação dos conceitos básicos e alguns testes. |
:-( |
:-| |
:-| |
8.5 |
145574 |
8.5 |
145882 |
8.5 |
180879 |
8.5 |
119785 |
8.5 |
17 |
135582 |
20/12 |
Appl Spark |
Classificador de imagens |
Implementou um classificador de imagens utilizando Spark e SVM (Support Vector Machine). Utilizou dataset CIFAR-10. |
:-) |
:-| |
:-):-) |
10.0 |
18 |
139223 |
15/12 |
Bug |
HIVE-14971 Hive returns incorrect result when NOT used with <=> (null safe equals) operator |
Introdução sobre Hive. Apresentação do bug descrito em uma issue e reprodução do problema. Utilizaram Hortonworks Sandbox. |
:-| |
:-):-) |
:-) |
9.5 |
136686 |
9.5 |
146377 |
9.5 |
106289 |
9.5 |