# Resumo
Previsão aprimorada de evasão de alunos usando o sistema de inferência difusa e regressão logística (tradução livre)
O paper fala sobre o problema da evasão escolar, citando o fato de que o índice de evasão escolar na Índia chega a quase 16%. Com base nisso e dados coletados de diversas faculdades eles propõem um algoritmo de Previsão de Desistência (Dropout Prediction Algorithm - DPA) usando lógica difusa e um sistema de inferência baseado em regressão logística
# Trabalho proposto
Como o comportamento e dados dos alunos são coletados de diversas fontes, alguns dados podem ser multidimensionais (ter diferentes dimensões e/ou escalas para o mesmo tipo de dado), o que requer um pré-processamento dos dados. Dessa forma, são aplicadas técnicas de mineração de dados (data mining) para extrair as features (variáveis de entrada) que influenciam na performance do estudante e no sistema educacional.
As features extraídas são dadas para a fase de treinamento, e uma vez completo o modelo aprende o estado e obtém resultados precisos.
O algoritmo proposto pelo paper é obtido de acordo com o seguinte diagrama:
Fonte: Paper
Seguindo os seguintes passos:
Coleta de dados (Data Collection): Foram coletadas 300 amostras de dados de estudantes para os cenários de evasão
Limpeza de dados (Data Cleansing): Foi utilizada filtragem por instância utilizando o algoritmo SMOTE (Synthetic Minority Over-sampling Technique) e a ferramenta Weka (opens new window) para a filtragem por atributo.
Seleção de features (Feature Selection): Após os passos acima, todas as informações sobre a evasão foram reduzidas para 23 features, as quais foram filtradas usando algoritmos de seleção de atributo (CfsSubsetEval, ChiSquaredAttributeEval, dentre outros). Ao final os atributos selecionados foram: Ocupação dos pais, se o aluno participa ou não de atividades extra-curriculares, nível de satisfação, mudança de curso, instituição, stress, localização, ambiente, histórico de atrasos e maus hábitos.
Classificação de amostras (Classification of Samples): Foram utilizadas árvores de decisão e regressão logistica para a previsão de evasão.
Previsão de desistência (Dropout Prediction): As regras para aprevisão de evasão foram elaboradas utilizando-se um sistema de inferência difusa. O seguinte algoritmo de predição foi feito:
.
Após a execução dos passos acima, os seguintes resultados foram obtidos:
Algorithm | TP |
---|---|
NaïveBayes | 0.892 |
Multilayer Perceptron | 0.784 |
RBFNetwork | 0.919 |
LogisticRegression | 0.973 |
SMO | 0.919 |
AdaBoost | 0.973 |
DecisionStump | 0.973 |
NBtree | 0.865 |
JRip | 0.919 |
Ridor | 0.892 |
Onde TP = True positive.
# Referências
A. Saranya, J. Rajeswari - ENHANCED PREDICTION OF STUDENT DROPOUTS USING FUZZY INFERENCE SYSTEM AND LOGISTIC REGRESSION (opens new window) - Department of Information Technology, Adhiparasakthi Engineering College, India
Wikipédia - Lógica Difusa (opens new window)