Evaluating Federated Learning for At-Risk Student Prediction: A Comparative Analysis of Model Complexity and Data Balancing
2508.18316v1
cs.LG, cs.AI, cs.CY
2025-08-28
Авторы:
Rodrigo Tertulino
Резюме на русском
## Контекст
Современные высшие учебные заведения сталкиваются с острой проблемой высоких отставаний и отказов в дистанционном обучении. Эти явления не только сказываются на уровне формирования общих академических результатов, но и сильно повлияют на индивидуальный успех студентов. Одним из ключевых подходов к решению этой проблемы является раннее идентифицирование рискованных студентов. Это позволит институтам предоставить необходимую поддержку в самый ранний срок. Однако развитие таких систем сталкивается с несколькими вызовами, включая защиту персональных данных и изоляцию данных между учреждениями. Исследование сосредоточено на использовании методов машинного обучения для решения этих проблем, при этом применение Federated Learning (FL) позволяет создать модели, которые одновременно обеспечивают эффективность и соблюдают необходимую конфиденциальность.
## Метод
Для разработки модели использовалась база данных OULAD, которая содержит разнообразные аспекты учебного процесса и цифровых взаимодействий студентов. Для формирования базовой модели, анализирующей риск выпадения, использовались два типа моделей: Logistic Regression (LR) и Deep Neural Network (DNN). Для гарантии конфиденциальности данных и масштабируемости решения реализовали федеративное обучение (Federated Learning), в котором модели обучались непосредственно на данных отдельных учреждений, не обрабатываясь в централизованном репозитории. Это позволило обеспечить безопасность данных, сохранив хорошую точность в предсказаниях.
## Результаты
Используя OULAD-датасет, проведен набор экспериментов с обеими моделями, Logistic Regression и DNN. Оба подхода были протестированы на различных уровнях сложности и методах балансировки данных. Благодаря FL-фреймворку, обучение проводилось на отдельных учебных заведениях, не раскрывая исходных данных. Результаты показали, что федеративная модель DNN демонстрирует высокую точность, с ROC AUC-скором 85% для прогнозирования риска отставания студентов. Это подтверждает мощь FL в решении проблем распределенного обучения, при этом учитывая конфиденциальность данных.
## Значимость
Результаты имеют практическое значение для многих учебных заведений, которым необходимы эффективные системы раннего предупреждения. Federated Learning позволяет интегрировать данные из нескольких источников без угрозы конфиденциальности, что делает это решение привлекательным для различных учреждений. Это может привести к повышению производительности студентов, снижению отставаний и замедлений в обучении. Модель также может быть применена в других областях, где требуется соблюдение конфиденциальности данных, например, в медицине или финансах.
Abstract
High dropout and failure rates in distance education pose a significant
challenge for academic institutions, making the proactive identification of
at-risk students crucial for providing timely support. This study develops and
evaluates a machine learning model based on early academic performance and
digital engagement patterns from the large-scale OULAD dataset to predict
student risk at a UK university. To address the practical challenges of data
privacy and institutional silos that often hinder such initiatives, we
implement the model using a Federated Learning (FL) framework. We compare model
complexity (Logistic Regression vs. a Deep Neural Network) and data balancing.
The final federated model demonstrates strong predictive capability, achieving
an ROC AUC score of approximately 85% in identifying at-risk students. Our
findings show that this federated approach provides a practical and scalable
solution for institutions to build effective early-warning systems, enabling
proactive student support while inherently respecting data privacy.
Ссылки и действия
Дополнительные ресурсы: