$ wget http://ftp.unicamp.br/pub/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz
$ tar xzf spark-2.3.1-bin-hadoop2.7.tgzUtilize o pyspark em:
$ cd spark-2.3.1-bin-hadoop2.7 $ bin/pyspark
Utilizando os arquivos fourhour-tcpdump.list e tcpdump.list fornecidos pela DARPA ou outro arquivo de complexidade semelhante, elabore no mínimo cinco manipulações/consultas interessantes sobre os dados.
Escreva um relatório contendo a motivação e o código de cada consulta, bem comolinhas de exemplo do resultado. Se você não utilizou o DARPA dataset, coloque documente um trecho de exemplo do arquivo de entrada.
O trabalho pode ser feito em duplas e entregue pelo Moodle.