Explainable AI for Predicting and Understanding Mathematics Achievement: A Cross-National Analysis of PISA 2018
2508.16747v1
cs.AI, cs.CY, cs.LG
2025-08-27
Авторы:
Liu Liu, Rui Dai
Резюме на русском
#### Контекст
Предсказание и понимание успеваемости в математике являются ключевыми аспектами развития эффективных учебных программ и политик. Однако существуют значительные проблемы в том, как учесть контекстные факторы, такие как социально-экономическое положение, индивидуальные особенности учащихся и окружающую среду. Эти аспекты влияют на развитие стратегий, нацеленных на повышение уровня образовательного достижения. Особенно важной является задача разработки моделей, которые не только предупреждают результаты, но и обеспечивают прозрачность их построения.
#### Метод
Для решения этой задачи использовались методы explainable artificial intelligence (XAI) на основе PISA 2018 данных. Были разработаны и протестированы четыре модели: Multiple Linear Regression (MLR), Random Forest (RF), CATBoost и Artificial Neural Networks (ANN). Обучение проводилось на 70% данных с использованием 5-fold cross-validation, а тестирование — на 30%, разбитых по странам. Для оценки качества использовались R^2 и Mean Absolute Error (MAE). Для повышения прозрачности результатов применялись функции интерпретации, такие как feature importance, SHAP values и диаграммы деревьев решений.
#### Результаты
Нелинейные модели, в том числе RF и ANN, показали лучшие результаты по отношению к MLR, сочетая точность и общиезуемость. RF оказалась самой балансированной по модели. Главными факторами, влияющими на успеваемость, являлись социально-экономическое положение, время на изучение математики, мотивация учителей и активность учащихся в математике. Однако эти факторы воспринимались по-разному в разных странах. Метрики, такие как графики сравнения предсказанных и фактических результатов, подтвердили высокую точность RF и CATBoost.
#### Значимость
Результаты могут быть применены в различных областях, включая разработку национальных и международных учебных программ, создание персонализированных стратегий обучения и развитие системы равенства в образовании. Использование XAI позволяет повысить прозрачность и понимание факторов, определяющих успеваемость, что имеет значительное значение для разработки точных и эффективных мер по повышению качества образования.
#### Выводы
Исследование показало, что нелинейные модели, такие как RF и ANN, эффективно предсказывают успеваемость в математике, учитывая контекстные факторы. Направления будущих исследований будут направлены на расширение объемов данных, уточнение моделей и их применение в различных регионах. Объединение XAI и образовательных исследований может привести к новым разработкам в области равноправия и качества образования.
Abstract
Understanding the factors that shape students' mathematics performance is
vital for designing effective educational policies. This study applies
explainable artificial intelligence (XAI) techniques to PISA 2018 data to
predict math achievement and identify key predictors across ten countries
(67,329 students). We tested four models: Multiple Linear Regression (MLR),
Random Forest (RF), CATBoost, and Artificial Neural Networks (ANN), using
student, family, and school variables. Models were trained on 70% of the data
(with 5-fold cross-validation) and tested on 30%, stratified by country.
Performance was assessed with R^2 and Mean Absolute Error (MAE). To ensure
interpretability, we used feature importance, SHAP values, and decision tree
visualizations. Non-linear models, especially RF and ANN, outperformed MLR,
with RF balancing accuracy and generalizability. Key predictors included
socio-economic status, study time, teacher motivation, and students' attitudes
toward mathematics, though their impact varied across countries. Visual
diagnostics such as scatterplots of predicted vs actual scores showed RF and
CATBoost aligned closely with actual performance. Findings highlight the
non-linear and context-dependent nature of achievement and the value of XAI in
educational research. This study uncovers cross-national patterns, informs
equity-focused reforms, and supports the development of personalized learning
strategies.
Ссылки и действия
Дополнительные ресурсы: