Instituto de Computação - UNICAMP

INF550 - Computação em Nuvem I

Experimento com HDFS, YARN e MapReduce

Curso de Especialização em Redes de Computadores 2016

Islene Calciolari Garcia


Instalação do Hadoop

Na primeira parte do experimento, você deve instalar o Hadoop (não precisa ser a versão com código fonte). Existem três modos: Sugiro o modo Pseudo-Distributed, também chamado de Single Node Cluster. Neste modo, você precisará de apenas um computador e poderá verificar o funcionamento dos componentes do Hadoop (HDFS e YARN).

Principais passos:

MapReduce

Na segunda parte, iremos rodar o WordCount a partir de um código fonte. A partir deste passo, você poderá alterar este teste, para implementar o seu próprio código mapreduce. Por exemplo, você pode escrever uma variação que conta as palavras de mesmo tamanho ou as palavras que começam com uma dada letra.

Para um exercício um pouco mais difícil implemente o índice invertido ou a recomendação de amigos.

Se você gosta de JAVA...

Execute o código do WordCount v1.0, seguindo o MapReduce Tutorial.

Se você prefere Python...

Siga as intruções em Writing an Hadoop MapReduce Program in Python. Para executar, utilize um comando similar a:
$ bin/hadoop jar share/hadoop/tools/lib/hadoop-*streaming*.jar -mapper mapper.py -reducer reducer.py -input /input -output /output