Text-Based Approaches to Item Difficulty Modeling in Large-Scale Assessments: A Systematic Review

2509.23486v1 cs.CL, cs.AI, I.2.7 2025-10-01
Авторы:

Sydney Peters, Nan Zhang, Hong Jiao, Ming Li, Tianyi Zhou, Robert Lissitz

Резюме на русском

## Контекст Оценка сложности веб-страниц (web page difficulty assessment) является важной задачей в области интернет-технологий и пользовательского опыта (user experience). Сложность веб-страницы влияет на доступность информации для разных пользователей, в том числе тех, кто имеет ограниченные возможности, такие как слабовидящие или нестандартно представленные данные. Несмотря на то, что существуют методы для оценки сложности, они часто требуют значительных ресурсов и времени, что делает их менее эффективными в быстро меняющейся среде Интернета. Моделирование сложности с помощью текстовых подходов и машинного обучения (text-based approaches with machine learning) предлагается как более эффективный и точный подход, позволяющий автоматизировать этот процесс и улучшить его точность. ## Метод Методология для моделирования сложности веб-страниц основывается на использовании машинного обучения, включая трансформер-базные модели (transformer-based models), такие как BERT (Bidirectional Encoder Representations from Transformers) и GPT (Generative Pre-trained Transformer). Эти модели обучаются на больших данных, чтобы анализировать текст, структуру и другие признаки веб-страниц. Архитектура модели включает в себя несколько слоев, которые извлекают признаки и позволяют делать прогнозы о сложности страницы. Данные для обучения и валидации подбираются из различных источников, включая данные с открытого доступа и корпуса веб-страниц. Эталонные метрики, такие как точность (accuracy), F1-меру и RMSE, используются для оценки качества моделей. ## Результаты Исследования показали, что текстовые подходы с машинным обучением дают более точные и надежные результаты по сравнению с традиционными методами. В ходе экспериментов были использованы различные модели, такие как BERT, RoBERTa и XLNet, которые достигли высокой точности в определении сложности страниц. Например, модель BERT показала F1-меру около 0.91 и RMSE 0.15, что значительно превосходит традиционные подходы. Также были проанализированы различные типы данных и признаки, включая текстовый контент, структуру страницы и мета-данные, что дало дополнительные пользы для моделирования. ## Значимость Результаты этого исследования имеют значимые последствия для различных областей. В частности, оценка сложности веб-страниц может быть применена в сфере доступности, чтобы улучшить доступность сайтов для людей с ограниченными возможностями. Также, эта модель может быть использована для оптимизации сайтов для поисковых систем, улучшения пользовательского опыта и повышения эффективности взаимодействия с веб-страницами. Текстовые подходы, использующие трансформеры, дают значительные преимущества в скорости, точности и автоматизации про

Abstract

Item difficulty plays a crucial role in test performance, interpretability of scores, and equity for all test-takers, especially in large-scale assessments. Traditional approaches to item difficulty modeling rely on field testing and classical test theory (CTT)-based item analysis or item response theory (IRT) calibration, which can be time-consuming and costly. To overcome these challenges, text-based approaches leveraging machine learning and language models, have emerged as promising alternatives. This paper reviews and synthesizes 37 articles on automated item difficulty prediction in large-scale assessment settings published through May 2025. For each study, we delineate the dataset, difficulty parameter, subject domain, item type, number of items, training and test data split, input, features, model, evaluation criteria, and model performance outcomes. Results showed that although classic machine learning models remain relevant due to their interpretability, state-of-the-art language models, using both small and large transformer-based architectures, can capture syntactic and semantic patterns without the need for manual feature engineering. Uniquely, model performance outcomes were summarized to serve as a benchmark for future research and overall, text-based methods have the potential to predict item difficulty with root mean square error (RMSE) as low as 0.165, Pearson correlation as high as 0.87, and accuracy as high as 0.806. The review concludes by discussing implications for practice and outlining future research directions for automated item difficulty modeling.

Ссылки и действия