Instituto de Computação - UNICAMP

INF550 - Computação em Nuvem I

Experimento com Spark

Curso de Especialização em Redes de Computadores 2018

Islene Calciolari Garcia


Instalação do Spark

Na primeira parte do experimento, você deve instalar o Spark:
  $ wget http://ftp.unicamp.br/pub/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz
  • Descompacte com
      $ tar xzf spark-2.3.1-bin-hadoop2.7.tgz
    
    Utilize o pyspark em:
     $ cd spark-2.3.1-bin-hadoop2.7
     $ bin/pyspark
    

    Exercício para entrega:

    Utilizando os arquivos fourhour-tcpdump.list e tcpdump.list fornecidos pela DARPA ou outro arquivo de complexidade semelhante, elabore no mínimo cinco manipulações/consultas interessantes sobre os dados.

    Escreva um relatório contendo a motivação e o código de cada consulta, bem comolinhas de exemplo do resultado. Se você não utilizou o DARPA dataset, coloque documente um trecho de exemplo do arquivo de entrada.

    O trabalho pode ser feito em duplas e entregue pelo Moodle.