SID: Benchmarking Guided Instruction Capabilities in STEM Education with a Socratic Interdisciplinary Dialogues Dataset

2508.04563v1 cs.AI 2025-08-08
Авторы:

Mei Jiang, Houping Yue, Bingdong Li, Hao Hao, Ying Qian, Bo Jiang, Aimin Zhou

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное образование стремится развивать у студентов способность к интеграции и переносу знаний в условиях сложных проблем, особенно в области STEM (наука, технология, инженерия, математика). Интердисциплинарные подходы к STEM призваны стимулировать такую способность, но они требуют высококвалифицированного руководства, которое трудно масштабировать. Искусственные интеллектуальные системы, такие как большие языковые модели (LLMs), представляют собой перспективный инструмент для такого руководства, однако их реальные возможности в области наставничества все еще недостаточно изучены. Отсутствие систематического бенчмарка для оценки их способностей к руководству в интердисциплинарных диалогах является ключевой проблемой. Интердисциплинарные диалоги, основанные на методе Сократа, требуют от системы не только понимания контекста, но и возможность формирования высокоуровневых педагогических стратегий для поддержки студентов в достижении интеграции знаний. Несмотря на широкие возможности современных LLMs, их эффективность в таких сценариях остается неясной. Таким образом, необходимо разработать комплексный бенчмарк, который позволит оценивать их педагогическую эффективность в условиях интердисциплинарных обсуждений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы авторы представляют SID (Socratic Interdisciplinary Dialogues Dataset) – первый бенчмарк, специально разработанный для оценки высокоуровневых педагогических возможностей LLMs в интердисциплинарных диалогах. SID включает в себя набор данных из 10 000 диалоговых очередей, охватывающих 48 сложных проектов STEM. Эти данные были тщательно аннотированы с использованием новой схемы, охватывающей глубокие педагогические аспекты, такие как логика развития диалога, вопросы наставничества и стратегии интеграции знаний. Кроме того, авторы предлагают новый набор метрик, включающий X-SRG (Cross-disciplinary Semantic Response Generation), для оценки качества ответов LLMs в контексте интердисциплинарных задач. Эти метрики позволяют измерять не только точность ответов, но и их педагогическую ценность, такие как способность к формированию связей между различными дисциплинами и поддержке студентов в достижении глубокого понимания. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели базовые эксперименты, используя несколько современных LLMs на данных SID. Результаты показали, что, несмотря на высокие технические возможности LLMs, их способность к эффективному руководству в интердисциплинарных диалогах остается ограниченной. Модели с лучшими результатами показали лишь умеренную эффективность в поддержке интеграции знаний и переноса на практику. Эксперименты также выявили недостатки в том, как LLMs формулируют вопросы и строят логические последовательности в диалогах. Эти результаты подтверждают необходимость развития более педагогически ориентированных моделей, способных лучше адаптироваться к специфике интердисциплинарного обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SID представляет собой важный шаг в развитии образовательных технологий, особенно в области интердисциплинарного STEM-образования. Он может стать ключевым инструментом для разработчиков LLMs, стремящихся создавать более эффективные системы для поддержки обучения. Благодаря SID, можно оценивать не только техническую производительность моделей, но и их педагогическую эффективность, что крайне важно для их применения в реальных учебных средах. Кроме того, SID может быть использован для разработки и тестирования новых методологий обучения, ориентированных на интеграцию знаний и перенос их на практику. Это может привести к созданию более инновационных образовательных решений, особенно в сфере дистанционного и адаптивного обучения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основным достижением данной работы является создание SID – первого бенчмарка для оценки педагогических возможностей LLMs в интердисциплинарных диалогах. Это открывает новые перспективы для развития образовательных технологий, особенно в контексте STEM. Будущие исследования могут фокусироваться на разработке моделей, которые лучше адаптированы к педагогическим задачам, а также на расширении SID для охвата более широкого спектра дисциплин и сценариев обучения.

Abstract

Fostering students' abilities for knowledge integration and transfer in complex problem-solving scenarios is a core objective of modern education, and interdisciplinary STEM is a key pathway to achieve this, yet it requires expert guidance that is difficult to scale. While LLMs offer potential in this regard, their true capability for guided instruction remains unclear due to the lack of an effective evaluation benchmark. To address this, we introduce SID, the first benchmark designed to systematically evaluate the higher-order guidance capabilities of LLMs in multi-turn, interdisciplinary Socratic dialogues. Our contributions include a large-scale dataset of 10,000 dialogue turns across 48 complex STEM projects, a novel annotation schema for capturing deep pedagogical features, and a new suite of evaluation metrics (e.g., X-SRG). Baseline experiments confirm that even state-of-the-art LLMs struggle to execute effective guided dialogues that lead students to achieve knowledge integration and transfer. This highlights the critical value of our benchmark in driving the development of more pedagogically-aware LLMs.

Ссылки и действия