Na primeira parte do experimento, você deve instalar o Hadoop
(não precisa ser a versão com código
fonte). Existem três modos:
Sugiro o modo Pseudo-Distributed, também chamado de Single Node
Cluster. Neste modo, você precisará de apenas um
computador e poderá verificar o funcionamento dos componentes
do Hadoop (HDFS e YARN).
Principais passos:
$ ssh localhostSe não conseguir logar sem digitar password:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
A partir deste passo, você poderá alterar este teste, para implementar o seu próprio código mapreduce. Por exemplo, você pode escrever uma variação que conta as palavras de mesmo tamanho ou as palavras que começam com uma dada letra (veja Developing First MapReduce Job).