## КОНТЕКСТ И ПРОБЛЕМАТИКА
Современное образование стремится развивать у студентов способность к интеграции и переносу знаний в условиях сложных проблем, особенно в области STEM (наука, технология, инженерия, математика). Интердисциплинарные подходы к STEM призваны стимулировать такую способность, но они требуют высококвалифицированного руководства, которое трудно масштабировать. Искусственные интеллектуальные системы, такие как большие языковые модели (LLMs), представляют собой перспективный инструмент для такого руководства, однако их реальные возможности в области наставничества все еще недостаточно изучены. Отсутствие систематического бенчмарка для оценки их способностей к руководству в интердисциплинарных диалогах является ключевой проблемой.
Интердисциплинарные диалоги, основанные на методе Сократа, требуют от системы не только понимания контекста, но и возможность формирования высокоуровневых педагогических стратегий для поддержки студентов в достижении интеграции знаний. Несмотря на широкие возможности современных LLMs, их эффективность в таких сценариях остается неясной. Таким образом, необходимо разработать комплексный бенчмарк, который позволит оценивать их педагогическую эффективность в условиях интердисциплинарных обсуждений.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Для решения этой проблемы авторы представляют SID (Socratic Interdisciplinary Dialogues Dataset) – первый бенчмарк, специально разработанный для оценки высокоуровневых педагогических возможностей LLMs в интердисциплинарных диалогах. SID включает в себя набор данных из 10 000 диалоговых очередей, охватывающих 48 сложных проектов STEM. Эти данные были тщательно аннотированы с использованием новой схемы, охватывающей глубокие педагогические аспекты, такие как логика развития диалога, вопросы наставничества и стратегии интеграции знаний.
Кроме того, авторы предлагают новый набор метрик, включающий X-SRG (Cross-disciplinary Semantic Response Generation), для оценки качества ответов LLMs в контексте интердисциплинарных задач. Эти метрики позволяют измерять не только точность ответов, но и их педагогическую ценность, такие как способность к формированию связей между различными дисциплинами и поддержке студентов в достижении глубокого понимания.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы провели базовые эксперименты, используя несколько современных LLMs на данных SID. Результаты показали, что, несмотря на высокие технические возможности LLMs, их способность к эффективному руководству в интердисциплинарных диалогах остается ограниченной. Модели с лучшими результатами показали лишь умеренную эффективность в поддержке интеграции знаний и переноса на практику.
Эксперименты также выявили недостатки в том, как LLMs формулируют вопросы и строят логические последовательности в диалогах. Эти результаты подтверждают необходимость развития более педагогически ориентированных моделей, способных лучше адаптироваться к специфике интердисциплинарного обучения.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
SID представляет собой важный шаг в развитии образовательных технологий, особенно в области интердисциплинарного STEM-образования. Он может стать ключевым инструментом для разработчиков LLMs, стремящихся создавать более эффективные системы для поддержки обучения. Благодаря SID, можно оценивать не только техническую производительность моделей, но и их педагогическую эффективность, что крайне важно для их применения в реальных учебных средах.
Кроме того, SID может быть использован для разработки и тестирования новых методологий обучения, ориентированных на интеграцию знаний и перенос их на практику. Это может привести к созданию более инновационных образовательных решений, особенно в сфере дистанционного и адаптивного обучения.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
Основным достижением данной работы является создание SID – первого бенчмарка для оценки педагогических возможностей LLMs в интердисциплинарных диалогах. Это открывает новые перспективы для развития образовательных технологий, особенно в контексте STEM. Будущие исследования могут фокусироваться на разработке моделей, которые лучше адаптированы к педагогическим задачам, а также на расширении SID для охвата более широкого спектра дисциплин и сценариев обучения.