# Resumo

Previsão aprimorada de evasão de alunos usando o sistema de inferência difusa e regressão logística (tradução livre)

O paper fala sobre o problema da evasão escolar, citando o fato de que o índice de evasão escolar na Índia chega a quase 16%. Com base nisso e dados coletados de diversas faculdades eles propõem um algoritmo de Previsão de Desistência (Dropout Prediction Algorithm - DPA) usando lógica difusa e um sistema de inferência baseado em regressão logística

# Trabalho proposto

Como o comportamento e dados dos alunos são coletados de diversas fontes, alguns dados podem ser multidimensionais (ter diferentes dimensões e/ou escalas para o mesmo tipo de dado), o que requer um pré-processamento dos dados. Dessa forma, são aplicadas técnicas de mineração de dados (data mining) para extrair as features (variáveis de entrada) que influenciam na performance do estudante e no sistema educacional.

As features extraídas são dadas para a fase de treinamento, e uma vez completo o modelo aprende o estado e obtém resultados precisos.

O algoritmo proposto pelo paper é obtido de acordo com o seguinte diagrama:

Fonte: Paper

Seguindo os seguintes passos:

  • Coleta de dados (Data Collection): Foram coletadas 300 amostras de dados de estudantes para os cenários de evasão

  • Limpeza de dados (Data Cleansing): Foi utilizada filtragem por instância utilizando o algoritmo SMOTE (Synthetic Minority Over-sampling Technique) e a ferramenta Weka (opens new window) para a filtragem por atributo.

  • Seleção de features (Feature Selection): Após os passos acima, todas as informações sobre a evasão foram reduzidas para 23 features, as quais foram filtradas usando algoritmos de seleção de atributo (CfsSubsetEval, ChiSquaredAttributeEval, dentre outros). Ao final os atributos selecionados foram: Ocupação dos pais, se o aluno participa ou não de atividades extra-curriculares, nível de satisfação, mudança de curso, instituição, stress, localização, ambiente, histórico de atrasos e maus hábitos.

  • Classificação de amostras (Classification of Samples): Foram utilizadas árvores de decisão e regressão logistica para a previsão de evasão.

  • Previsão de desistência (Dropout Prediction): As regras para aprevisão de evasão foram elaboradas utilizando-se um sistema de inferência difusa. O seguinte algoritmo de predição foi feito:

.

Após a execução dos passos acima, os seguintes resultados foram obtidos:

Algorithm TP
NaïveBayes 0.892
Multilayer Perceptron 0.784
RBFNetwork 0.919
LogisticRegression 0.973
SMO 0.919
AdaBoost 0.973
DecisionStump 0.973
NBtree 0.865
JRip 0.919
Ridor 0.892

Onde TP = True positive.

# Referências

A. Saranya, J. Rajeswari - ENHANCED PREDICTION OF STUDENT DROPOUTS USING FUZZY INFERENCE SYSTEM AND LOGISTIC REGRESSION (opens new window) - Department of Information Technology, Adhiparasakthi Engineering College, India

Wikipédia - Lógica Difusa (opens new window)