Grupo |
RA |
Tema |
Comentários |
Nota |
1 |
119319 |
Page Rank |
Explicação teórica do algoritmo PageRank. Testes com dados da Wikipedia. Modificação visava escolher apenas dados relacionados a pessoas. |
10 |
119785 |
10 |
139715 |
10 |
103797 |
10 |
2 |
118941 |
LastFM |
Aplicação base conta o número de usuários que ouviram cada música. Modificação visa contar músicas que foram reproduzidas integralmente, o que poderia ser útil para sites de recomendação. |
10 |
117856 |
10 |
119494 |
10 |
118525 |
10 |
3 |
146446 |
Detecção de entidades corrompidas |
Aplicação e implementação desenvolvida pelo grupo. Boa descrição do problema e da solução. |
10 |
136323 |
10 |
136700 |
10 |
137748 |
10 |
4 |
119383 |
Geolocalização das páginas da Wikipedia |
Implementação original agrupa artigos por localidade. Alteração contou o número de artigos, para dar uma visão de densidade de publicações por país. |
10 |
136102 |
10 |
120884 |
10 |
5 |
135723 |
Clusterização de crimes |
Implementação desenvolvida pelo grupo com duas fases de map/reduce. Visualização dos resultados em um mapa com tipos de crimes com cores distintas. |
10 |
122314 |
10 |
137715 |
10 |
047027 |
10 |
6 |
181493 |
Amigos em comum |
Não utilizaram o Hadoop. Implementação em Python. |
8 |
181596 |
8 |
Grupo |
RA |
Tema |
Comentários |
Nota |
1 |
119319 |
Page Rank |
Mantiveram mesmo tema do projeto anterior. Boa comparação com Hadoop. |
10 |
119785 |
10 |
139715 |
10 |
103797 |
10 |
2 |
118941 |
Localização de venda de produtos |
Utilizaram um exemplo de um tutorial Java Spark. Explicaram bem o código e a proposta de alteração. |
10 |
117856 |
10 |
119494 |
10 |
118525 |
10 |
3 |
146446 |
Determinação de localização por ip |
Utilizaram Kd-tree e obtiveram bom desempenho para bases de dados relativamente grandes. Dicas para configuração do cluster. |
10 |
136323 |
10 |
136700 |
10 |
137748 |
10 |
4 |
119383 |
Estatísticas de voo |
Código original apresentava atraso por companhia aérea; codígo modificado detalha o atraso por trecho. Boa comparação com o Hadoop. |
10 |
136102 |
10 |
120884 |
10 |
5 |
135723 |
Clusterização de crimes |
Reimplementação do problema apresentado no projeto anterior. Boa comparação com o Hadoop. |
10 |
122314 |
10 |
137715 |
10 |
047027 |
10 |
6 |
181493 |
Ranking de corrupção |
Adaptação criativa do problema visto no projeto anterior, adaptado para o contexto político atual. |
10 |
181596 |
10 |
Grupo |
RA |
Tema |
Comentários |
Nota |
1 |
119319 |
SPARK-14759 After join one cannot drop dynamically added column |
Boa explicação do problema, conseguiram reproduzir o bug e fizeram boa investigação. |
10 |
119785 |
10 |
139715 |
10 |
103797 |
10 |
2 |
118941 |
MAPREDUCE-5983 TestCommandLineJobSubmission assumes there is a /tmp dir that can be used for temp data |
Explicaram bem o problema, identificando-o no código. Propuseram soluções. Apresentação com atraso. |
8 |
117856 |
8 |
119494 |
8 |
118525 |
8 |
3 |
146446 |
YARN-2413 capacity scheduler will overallocate vcores |
Explicação completa do contexto do bug, com apresentação do YARN, capacity scheduler e vcores. Apresentaram discussão no JIRA sobre dúvida se este seria realmente um bug ou um comportamento não documentado. Não simularam. |
10 |
136323 |
10 |
136700 |
10 |
137748 |
10 |
4 |
119383 |
SPARK 14700 PySpark Row equality operator is not overridden |
Escolheram bug recente. Explicaram bem o contexto e patch para solução do problema. |
10 |
136102 |
10 |
120884 |
10 |
5 |
135723 |
MAPREDUCE-2380 Multiple replace function call can be replaced with a single for loop to improve performance |
Explicaram bem o bug. Escreveram patch e comentaram aspectos de desempenho. |
10 |
122314 |
10 |
137715 |
10 |
047027 |
10 |
6 |
181493 |
HADOOP-13264 DFSOutputStream close method fails to clean up resources in case no hdfs datanodes are accessible |
Boa explicação do contexto do bug. Demonstração do problema. Entrega com atraso. |
7 |
181596 |
7 |
Grupo |
RA |
Tema |
Comentários |
Nota |
1 |
119319 |
HDFS-6994 libhdfs3 - A native C/C++ HDFS client |
Issue proposta em 2014, com algumas sub-tasks fechadas e outras em aberto. |
10 |
119785 |
10 |
139715 |
10 |
103797 |
10 |
2 |
118941 |
SPARK-6116 DataFrame API improvement umbrella ticket (Spark 1.5) e SPARK-9576 DataFrame API improvement umbrella ticket (Spark 2.0 and 2.1) |
Issue de 2015 com uma centena de sub-tasks, resolvida. Grupo comentou o problema e detalhou algumas sub-tasks. |
10 |
117856 |
10 |
119494 |
10 |
118525 |
10 |
3 |
146446 |
YARN-2139 [Umbrella] Support for Disk as a Resource in YARN |
Issue proposta em 2014, com discussão sobre problema importante de gerenciamento de disco como um recurso. |
10 |
136323 |
10 |
136700 |
10 |
137748 |
10 |
4 |
119383 |
SPARK-15834 Time zone / locale sensitivity umbrella |
Issue recente, com poucas sub-tasks. Grupo abordou detalhes de problema interessante e recorrente. |
10 |
136102 |
10 |
120884 |
10 |
5 |
135723 |
SPARK-4587 Model export/import |
Issue criada em 2014 para atender item bastante solicitado na lista de emails. Grupo caracterizou a biblioteca Mlib e detalhes do problema de importação/exportação. |
10 |
122314 |
10 |
137715 |
10 |
047027 |
10 |
6 |
181493 |
HDFS-9924 [umbrella] Nonblocking HDFS Access |
Issue recente que aborda problema importante relacionado ao desempenho do sistema de arquivos. |
10 |
181596 |
10 |
Grupo |
RA |
Tema |
Comentários |
Nota |
1 |
119319 |
SPARK-6942 Umbrella: UI Visualizations for Core and Dataframes |
Issue umbrella de 2015, já resolvida. Grupo comentou histórico e sub-tasks. |
10 |
119785 |
10 |
139715 |
10 |
103797 |
10 |
2 |
118941 |
HADOOP-13223 winutils.exe is a bug nexus and should be killed with an axe |
Issue recente sobre problema prático interessante. Grupo apresentou uma boa discussão sobre o assunto. |
10 |
117856 |
10 |
119494 |
10 |
118525 |
10 |
3 |
146446 |
YARN-1011 [Umbrella] Schedule containers based on utilization of currently allocated containers |
Issue de 2013, mas com comentários recentes. Discussão interessante sobre uso e alocação especulativa dos recursos. |
10 |
136323 |
10 |
136700 |
10 |
137748 |
10 |
4 |
119383 |
HADOOP-13230 s3a's use of fake empty directory blobs does not interoperate with other s3 tools |
Issue recente. Problema interessante sobre armazenamento e acesso aos arquivos na Amazon. |
10 |
136102 |
10 |
120884 |
10 |
5 |
135723 |
SPARK-7075 Project Tungsten (Spark 1.5 Phase 1) |
Issue umbrella criada em 2015. Grupo discutiu problemas recentes de desempenho no SPARK. |
10 |
122314 |
10 |
137715 |
10 |
047027 |
10 |
6 |
181493 |
HADOOP-9859 remove TABs from source |
Issue descrevendo bug simples, reportado em 2013. Grupo desenvolveu código para resolver o problema. |
10 |
181596 |
10 |