ZPD-SCA: Unveiling the Blind Spots of LLMs in Assessing Students' Cognitive Abilities
2508.14377v1
cs.CL, cs.AI, cs.CY
2025-08-22
Авторы:
Wenhan Dong, Zhen Sun, Yuemeng Zhao, Zifan Peng, Jun Wu, Jingyi Zheng, Yule Liu, Xinlei He, Yu Wang, Ruiming Wang, Xinyi Huang, Lei Mo
Резюме на русском
## Контекст
Хотя большие языковые модели (LLMs) продемонстрировали свою эффективность в области образовательных приложений, их способность точно оценивать уровень схожести между материалом для чтения и способностями учащихся остается недостаточно изученной. Эта проблема является критической, так как основательным принципом образовательного процесса является Зона Ближайшего Развития (ZPD), которая предполагает соответствие материалов для обучения развитию каждого учащегося. Однако существует ограниченное количество исследований, которые были бы посвящены рассмотрению способности LLMs оценивать сложность чтения в зависимости от возраста учащихся. Эта проблема особенно актуальна в контексте китайского языка, где естественные характеристики языка и культурные особенности могут существенно сказываться на развитии учащихся. В нашем исследовании мы предлагаем ZPD-SCA, подробный бенчмарк для оценки сложности текста для китайского языка, разработанный с учетом ZPD.
## Метод
ZPD-SCA был создан с помощью 60 особых учителей высшей квалификации, которые ранжировали тексты в соответствии с развитием учащихся. Мы использовали данные, собранные из стандартных классов, чтобы создать базу для оценки. Для сравнения использованы модели LLMs, включая Qwen-max и GLM, которые прошли тестирование в задачах нулевого выстрела и с контекстными примерами. Мы точно измерили разницу в производительности с целью выявить уязвимости и преимущества моделей в области образовательных приложений.
## Результаты
Наши результаты показали, что LLMs сталкиваются с ограничениями при нулевом выстреле, так как Qwen-max и GLM даже не достигли случайного угадывания. Однако при использовании контекстных примеров, производительность моделей значительно повысилась. Наиболее продвинутые модели LLMs достигли почти двойного увеличения точности по сравнению с нулевым выстрелом. Тем не менее, мы обнаружили систематические направленные ошибки, что указывает на трудности моделей в точной оценке сложности текста в соответствии с развитием учеников. Эти ошибки были особенно заметны при работе с разными жанрами текстов.
## Значимость
ZPD-SCA может служить основополагающим инструментом для повышения точности оценки сложности чтения в LLMs. Мы видим возможность для развития более точных моделей, которые будут учитывать развитие учащихся в образовательных приложениях. Это может привести к созданию более эффективных инструментов для оценки и развития студентов, особенно в китайской области образования.
## Выводы
Мы демонстрируем, что ZPD-SCA может стать ключевым инструментом для изучения и улучшения LLMs в области образовате
Abstract
Large language models (LLMs) have demonstrated potential in educational
applications, yet their capacity to accurately assess the cognitive alignment
of reading materials with students' developmental stages remains insufficiently
explored. This gap is particularly critical given the foundational educational
principle of the Zone of Proximal Development (ZPD), which emphasizes the need
to match learning resources with Students' Cognitive Abilities (SCA). Despite
the importance of this alignment, there is a notable absence of comprehensive
studies investigating LLMs' ability to evaluate reading comprehension
difficulty across different student age groups, especially in the context of
Chinese language education. To fill this gap, we introduce ZPD-SCA, a novel
benchmark specifically designed to assess stage-level Chinese reading
comprehension difficulty. The benchmark is annotated by 60 Special Grade
teachers, a group that represents the top 0.15% of all in-service teachers
nationwide. Experimental results reveal that LLMs perform poorly in zero-shot
learning scenarios, with Qwen-max and GLM even falling below the probability of
random guessing. When provided with in-context examples, LLMs performance
improves substantially, with some models achieving nearly double the accuracy
of their zero-shot baselines. These results reveal that LLMs possess emerging
abilities to assess reading difficulty, while also exposing limitations in
their current training for educationally aligned judgment. Notably, even the
best-performing models display systematic directional biases, suggesting
difficulties in accurately aligning material difficulty with SCA. Furthermore,
significant variations in model performance across different genres underscore
the complexity of task. We envision that ZPD-SCA can provide a foundation for
evaluating and improving LLMs in cognitively aligned educational applications.
Ссылки и действия
Дополнительные ресурсы: