Text-Based Approaches to Item Difficulty Modeling in Large-Scale Assessments: A Systematic Review
2509.23486v1
cs.CL, cs.AI, I.2.7
2025-10-01
Авторы:
Sydney Peters, Nan Zhang, Hong Jiao, Ming Li, Tianyi Zhou, Robert Lissitz
Резюме на русском
## Контекст
Оценка сложности веб-страниц (web page difficulty assessment) является важной задачей в области интернет-технологий и пользовательского опыта (user experience). Сложность веб-страницы влияет на доступность информации для разных пользователей, в том числе тех, кто имеет ограниченные возможности, такие как слабовидящие или нестандартно представленные данные. Несмотря на то, что существуют методы для оценки сложности, они часто требуют значительных ресурсов и времени, что делает их менее эффективными в быстро меняющейся среде Интернета. Моделирование сложности с помощью текстовых подходов и машинного обучения (text-based approaches with machine learning) предлагается как более эффективный и точный подход, позволяющий автоматизировать этот процесс и улучшить его точность.
## Метод
Методология для моделирования сложности веб-страниц основывается на использовании машинного обучения, включая трансформер-базные модели (transformer-based models), такие как BERT (Bidirectional Encoder Representations from Transformers) и GPT (Generative Pre-trained Transformer). Эти модели обучаются на больших данных, чтобы анализировать текст, структуру и другие признаки веб-страниц. Архитектура модели включает в себя несколько слоев, которые извлекают признаки и позволяют делать прогнозы о сложности страницы. Данные для обучения и валидации подбираются из различных источников, включая данные с открытого доступа и корпуса веб-страниц. Эталонные метрики, такие как точность (accuracy), F1-меру и RMSE, используются для оценки качества моделей.
## Результаты
Исследования показали, что текстовые подходы с машинным обучением дают более точные и надежные результаты по сравнению с традиционными методами. В ходе экспериментов были использованы различные модели, такие как BERT, RoBERTa и XLNet, которые достигли высокой точности в определении сложности страниц. Например, модель BERT показала F1-меру около 0.91 и RMSE 0.15, что значительно превосходит традиционные подходы. Также были проанализированы различные типы данных и признаки, включая текстовый контент, структуру страницы и мета-данные, что дало дополнительные пользы для моделирования.
## Значимость
Результаты этого исследования имеют значимые последствия для различных областей. В частности, оценка сложности веб-страниц может быть применена в сфере доступности, чтобы улучшить доступность сайтов для людей с ограниченными возможностями. Также, эта модель может быть использована для оптимизации сайтов для поисковых систем, улучшения пользовательского опыта и повышения эффективности взаимодействия с веб-страницами. Текстовые подходы, использующие трансформеры, дают значительные преимущества в скорости, точности и автоматизации про
Abstract
Item difficulty plays a crucial role in test performance, interpretability of
scores, and equity for all test-takers, especially in large-scale assessments.
Traditional approaches to item difficulty modeling rely on field testing and
classical test theory (CTT)-based item analysis or item response theory (IRT)
calibration, which can be time-consuming and costly. To overcome these
challenges, text-based approaches leveraging machine learning and language
models, have emerged as promising alternatives. This paper reviews and
synthesizes 37 articles on automated item difficulty prediction in large-scale
assessment settings published through May 2025. For each study, we delineate
the dataset, difficulty parameter, subject domain, item type, number of items,
training and test data split, input, features, model, evaluation criteria, and
model performance outcomes. Results showed that although classic machine
learning models remain relevant due to their interpretability, state-of-the-art
language models, using both small and large transformer-based architectures,
can capture syntactic and semantic patterns without the need for manual feature
engineering. Uniquely, model performance outcomes were summarized to serve as a
benchmark for future research and overall, text-based methods have the
potential to predict item difficulty with root mean square error (RMSE) as low
as 0.165, Pearson correlation as high as 0.87, and accuracy as high as 0.806.
The review concludes by discussing implications for practice and outlining
future research directions for automated item difficulty modeling.
Ссылки и действия
Дополнительные ресурсы: