Instituto de Computação - UNICAMP

MC855 - Projeto em Sistemas de Computação

Explorando o Hadoop MapReduce

Primeiro Semestre de 2016

Islene Calciolari Garcia

Instalação do Hadoop

Na primeira parte do experimento, você deve instalar o Hadoop (não precisa ser a versão com código fonte). Existem três modos:

Sugiro o modo Pseudo-Distributed, também chamado de Single Node Cluster. Neste modo, você precisará de apenas um computador e poderá verificar o funcionamento dos componentes do Hadoop (HDFS e YARN).

Principais passos:

Verifique a configuração do ssh

  $ ssh localhost

Se não conseguir logar sem digitar password:

  $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
  $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

Faça o download da versão mais nova
Siga as orientações para a instalação. Instale no diretório temporário das máquinas do IC-03.
Verifique o funcionamento do HDFS em http://localhost:50070/
Verifique o funcionamento do YARN em http://localhost:8088/
Rode um dos exemplos prontos de mapreduce.

MapReduce

Na segunda parte, iremos rodar o código do WordCount v1.0, seguindo o MapReduce Tutorial

A partir deste passo, você poderá alterar este teste, para implementar o seu próprio código mapreduce. Por exemplo, você pode escrever uma variação que conta as palavras de mesmo tamanho ou as palavras que começam com uma dada letra (veja Developing First MapReduce Job).