Evaluating Federated Learning for At-Risk Student Prediction: A Comparative Analysis of Model Complexity and Data Balancing

2508.18316v1 cs.LG, cs.AI, cs.CY 2025-08-28
Авторы:

Rodrigo Tertulino

Резюме на русском

## Контекст Современные высшие учебные заведения сталкиваются с острой проблемой высоких отставаний и отказов в дистанционном обучении. Эти явления не только сказываются на уровне формирования общих академических результатов, но и сильно повлияют на индивидуальный успех студентов. Одним из ключевых подходов к решению этой проблемы является раннее идентифицирование рискованных студентов. Это позволит институтам предоставить необходимую поддержку в самый ранний срок. Однако развитие таких систем сталкивается с несколькими вызовами, включая защиту персональных данных и изоляцию данных между учреждениями. Исследование сосредоточено на использовании методов машинного обучения для решения этих проблем, при этом применение Federated Learning (FL) позволяет создать модели, которые одновременно обеспечивают эффективность и соблюдают необходимую конфиденциальность. ## Метод Для разработки модели использовалась база данных OULAD, которая содержит разнообразные аспекты учебного процесса и цифровых взаимодействий студентов. Для формирования базовой модели, анализирующей риск выпадения, использовались два типа моделей: Logistic Regression (LR) и Deep Neural Network (DNN). Для гарантии конфиденциальности данных и масштабируемости решения реализовали федеративное обучение (Federated Learning), в котором модели обучались непосредственно на данных отдельных учреждений, не обрабатываясь в централизованном репозитории. Это позволило обеспечить безопасность данных, сохранив хорошую точность в предсказаниях. ## Результаты Используя OULAD-датасет, проведен набор экспериментов с обеими моделями, Logistic Regression и DNN. Оба подхода были протестированы на различных уровнях сложности и методах балансировки данных. Благодаря FL-фреймворку, обучение проводилось на отдельных учебных заведениях, не раскрывая исходных данных. Результаты показали, что федеративная модель DNN демонстрирует высокую точность, с ROC AUC-скором 85% для прогнозирования риска отставания студентов. Это подтверждает мощь FL в решении проблем распределенного обучения, при этом учитывая конфиденциальность данных. ## Значимость Результаты имеют практическое значение для многих учебных заведений, которым необходимы эффективные системы раннего предупреждения. Federated Learning позволяет интегрировать данные из нескольких источников без угрозы конфиденциальности, что делает это решение привлекательным для различных учреждений. Это может привести к повышению производительности студентов, снижению отставаний и замедлений в обучении. Модель также может быть применена в других областях, где требуется соблюдение конфиденциальности данных, например, в медицине или финансах.

Abstract

High dropout and failure rates in distance education pose a significant challenge for academic institutions, making the proactive identification of at-risk students crucial for providing timely support. This study develops and evaluates a machine learning model based on early academic performance and digital engagement patterns from the large-scale OULAD dataset to predict student risk at a UK university. To address the practical challenges of data privacy and institutional silos that often hinder such initiatives, we implement the model using a Federated Learning (FL) framework. We compare model complexity (Logistic Regression vs. a Deep Neural Network) and data balancing. The final federated model demonstrates strong predictive capability, achieving an ROC AUC score of approximately 85% in identifying at-risk students. Our findings show that this federated approach provides a practical and scalable solution for institutions to build effective early-warning systems, enabling proactive student support while inherently respecting data privacy.

Ссылки и действия