Instituto de Computação - UNICAMP

INF550 - Computação em Nuvem I

Experimento com Spark

Curso de Especialização em Redes de Computadores 2018

Islene Calciolari Garcia

Instalação do Spark

Na primeira parte do experimento, você deve instalar o Spark:

  $ wget http://ftp.unicamp.br/pub/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz

Descompacte com

  $ tar xzf spark-2.3.1-bin-hadoop2.7.tgz

Utilize o pyspark em:

 $ cd spark-2.3.1-bin-hadoop2.7
 $ bin/pyspark

Exercício para entrega:

Utilizando os arquivos fourhour-tcpdump.list e tcpdump.list fornecidos pela DARPA ou outro arquivo de complexidade semelhante, elabore no mínimo cinco manipulações/consultas interessantes sobre os dados.

Uma das consultas pode ser um filtro simples.
Consultas mais elaboradas devem conter transformações como reduceByKey, sorkByKey ou groupByKey
Em uma das consultas mais elaboradas você deve criar uma nova chave a partir de elementos das linhas originais.

Escreva um relatório contendo a motivação e o código de cada consulta, bem comolinhas de exemplo do resultado. Se você não utilizou o DARPA dataset, coloque documente um trecho de exemplo do arquivo de entrada.

O trabalho pode ser feito em duplas e entregue pelo Moodle.