Discerning minds or generic tutors? Evaluating instructional guidance capabilities in Socratic LLMs

2508.06583v1 cs.CL, cs.AI 2025-08-13
Авторы:

Ying Liu, Can Li, Ting Zhang, Mei Wang, Qiannan Zhu, Jian Li, Hua Huang

Резюме на русском

## Контекст Говорящие языковые модели (LLM) становятся все более популярными в области образовательных технологий, особенно в контексте специализированных онлайн-курсов и систем онлайн-образования. Одна из их ключевых функций — Socratic questioning, которая позволяет моделям формировать вопросы для стимулирования размышлений и поддержки процесса обучения. Однако, несмотря на выдающиеся результаты в этой области, существуют проблемы: большинство исследований ограничиваются тестовым оцениванием вопросов, не учитывая способность моделей адаптироваться к разным уровням понимания учеников. Этот аспект, который является существенным для эффективного консультирования, так и остается недостаточно изученным. Исследование, основанное на анализе имитации взаимодействий существующих моделей, призвано провести детальный анализ их возможностей в области диалогического обучения. ## Метод Авторы предлагают методологию, основанную на анализе реальных диалогов в образовательных системах, которая позволяет оценивать модели не только по вопросам, но и по способности адаптироваться к уровню понимания ученика. Основная идея заключается в том, чтобы имитировать динамическую ситуацию, когда модель должна не только сформировать вопросы, но и реагировать на поведение ученика. Метод включает три этапа: (1) **Perception** — оценка состояния ученика на основе его ответов и поведения; (2) **Orchestration** — адаптация стратегии консультации на основе полученных данных; (3) **Elicitation** — стимулирование ученика к конкретным мыслям и отражению. Этапы становятся основой для нового бенчмарка, **GuideEval**, который тестирует модели на способность динамическими способами консультировать. ## Результаты Эксперименты показывают, что существующие модели LLM часто не способны адекватно реагировать на ситуации, когда ученик страдает от непонимания или требует помощи. Это отражается в низком уровне адаптации и эффективности консультаций. Тестирование на **GuideEval** показало, что некоторые модели даже словятся с основными вопросами, не удаваясь предлагать нужную стратегию. В то же время, модели, натренированные с помощью нового подхода **behavior-guided fine-tuning**, показали значительную улучшение в способности динамически адаптироваться и поддерживать эффективный обмен с учеником. ## Значимость Это исследование открывает путь к более точной оценке LLM в области образовательных технологий. Новый подход предлагает перейти от изолированного оценивания контента к оценке взаимодействия моделей с пользователем. Это может привести к более эффективным системам обучения, которые смогут адаптироваться к неоднородным нуж

Abstract

The conversational capabilities of large language models hold significant promise for enabling scalable and interactive tutoring. While prior research has primarily examined their capacity for Socratic questioning, it often overlooks a critical dimension: adaptively guiding learners based on their cognitive states. This study shifts focus from mere question generation to the broader instructional guidance capability. We ask: Can LLMs emulate expert tutors who dynamically adjust strategies in response to learners' understanding? To investigate this, we propose GuideEval, a benchmark grounded in authentic educational dialogues that evaluates pedagogical guidance through a three-phase behavioral framework: (1) Perception, inferring learner states; (2) Orchestration, adapting instructional strategies; and (3) Elicitation, stimulating proper reflections. Empirical findings reveal that existing LLMs frequently fail to provide effective adaptive scaffolding when learners exhibit confusion or require redirection. Furthermore, we introduce a behavior-guided finetuning strategy that leverages behavior-prompted instructional dialogues, significantly enhancing guidance performance. By shifting the focus from isolated content evaluation to learner-centered interaction, our work advocates a more dialogic paradigm for evaluating Socratic LLMs.

Ссылки и действия