ZPD-SCA: Unveiling the Blind Spots of LLMs in Assessing Students' Cognitive Abilities

2508.14377v1 cs.CL, cs.AI, cs.CY 2025-08-22
Авторы:

Wenhan Dong, Zhen Sun, Yuemeng Zhao, Zifan Peng, Jun Wu, Jingyi Zheng, Yule Liu, Xinlei He, Yu Wang, Ruiming Wang, Xinyi Huang, Lei Mo

Резюме на русском

## Контекст Хотя большие языковые модели (LLMs) продемонстрировали свою эффективность в области образовательных приложений, их способность точно оценивать уровень схожести между материалом для чтения и способностями учащихся остается недостаточно изученной. Эта проблема является критической, так как основательным принципом образовательного процесса является Зона Ближайшего Развития (ZPD), которая предполагает соответствие материалов для обучения развитию каждого учащегося. Однако существует ограниченное количество исследований, которые были бы посвящены рассмотрению способности LLMs оценивать сложность чтения в зависимости от возраста учащихся. Эта проблема особенно актуальна в контексте китайского языка, где естественные характеристики языка и культурные особенности могут существенно сказываться на развитии учащихся. В нашем исследовании мы предлагаем ZPD-SCA, подробный бенчмарк для оценки сложности текста для китайского языка, разработанный с учетом ZPD. ## Метод ZPD-SCA был создан с помощью 60 особых учителей высшей квалификации, которые ранжировали тексты в соответствии с развитием учащихся. Мы использовали данные, собранные из стандартных классов, чтобы создать базу для оценки. Для сравнения использованы модели LLMs, включая Qwen-max и GLM, которые прошли тестирование в задачах нулевого выстрела и с контекстными примерами. Мы точно измерили разницу в производительности с целью выявить уязвимости и преимущества моделей в области образовательных приложений. ## Результаты Наши результаты показали, что LLMs сталкиваются с ограничениями при нулевом выстреле, так как Qwen-max и GLM даже не достигли случайного угадывания. Однако при использовании контекстных примеров, производительность моделей значительно повысилась. Наиболее продвинутые модели LLMs достигли почти двойного увеличения точности по сравнению с нулевым выстрелом. Тем не менее, мы обнаружили систематические направленные ошибки, что указывает на трудности моделей в точной оценке сложности текста в соответствии с развитием учеников. Эти ошибки были особенно заметны при работе с разными жанрами текстов. ## Значимость ZPD-SCA может служить основополагающим инструментом для повышения точности оценки сложности чтения в LLMs. Мы видим возможность для развития более точных моделей, которые будут учитывать развитие учащихся в образовательных приложениях. Это может привести к созданию более эффективных инструментов для оценки и развития студентов, особенно в китайской области образования. ## Выводы Мы демонстрируем, что ZPD-SCA может стать ключевым инструментом для изучения и улучшения LLMs в области образовате

Abstract

Large language models (LLMs) have demonstrated potential in educational applications, yet their capacity to accurately assess the cognitive alignment of reading materials with students' developmental stages remains insufficiently explored. This gap is particularly critical given the foundational educational principle of the Zone of Proximal Development (ZPD), which emphasizes the need to match learning resources with Students' Cognitive Abilities (SCA). Despite the importance of this alignment, there is a notable absence of comprehensive studies investigating LLMs' ability to evaluate reading comprehension difficulty across different student age groups, especially in the context of Chinese language education. To fill this gap, we introduce ZPD-SCA, a novel benchmark specifically designed to assess stage-level Chinese reading comprehension difficulty. The benchmark is annotated by 60 Special Grade teachers, a group that represents the top 0.15% of all in-service teachers nationwide. Experimental results reveal that LLMs perform poorly in zero-shot learning scenarios, with Qwen-max and GLM even falling below the probability of random guessing. When provided with in-context examples, LLMs performance improves substantially, with some models achieving nearly double the accuracy of their zero-shot baselines. These results reveal that LLMs possess emerging abilities to assess reading difficulty, while also exposing limitations in their current training for educationally aligned judgment. Notably, even the best-performing models display systematic directional biases, suggesting difficulties in accurately aligning material difficulty with SCA. Furthermore, significant variations in model performance across different genres underscore the complexity of task. We envision that ZPD-SCA can provide a foundation for evaluating and improving LLMs in cognitively aligned educational applications.

Ссылки и действия