Data de entrega 20/5 em aula
O exercicio pode ser entregue ate 22/5 em aula, sem penalidade.
Este exercicio sera um problema de classificação de texto, em multiplas classes. Nós vamos utilizar um subconjunto do dataset 20newsgroup disponivel aqui. Cada diretorio é o nome de uma classe e inclui os arquivos de texto da classe.
Separe cada uma das 8 classes em um grupo de treino com 60% dos dados e o de teste com 40%.
Faca o preprocessamento padrão para textos: elimine pontuação, converta para minusculas, remova números e cadeias que incluam números, e remova as stop words tradicionais para o ingles. Remova tambem os headers (e talvez footers) dos emails.
Faça o stemming das palavras
Atenção: este exercicio esta sub-especificado. Eu nào especifico várias coisas - voce deve fazer pressuposições, tomar decisòes por si só neste exercicio. Apenas deixe claro no relatório que decisòes voce tomou.