\textsc{SimInstruct}: A Responsible Tool for Collecting Scaffolding Dialogues Between Experts and LLM-Simulated Novices
2508.04428v1
cs.AI
2025-08-09
Авторы:
Si Chen, Izzy Molnar, Ting Hua, Peiyu Li, Le Huy Khiem, G. Alex Ambrose, Jim Lang, Ronald Metoyer, Nitesh V. Chawla
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Высококачественные многоходовые инструктивные диалоги между начинающими и экспертами являются необходимым компонентом для создания ИИ-систем, поддерживающих обучение, преподавание и принятие решений. Такие диалоги часто включают в себя скаффолдинг (scaffolding) — процесс, при котором эксперт поддерживает мышление новичка с помощью вопросов, обратной связи и пошагового руководства. Однако сбор таких данных сталкивается со значительными трудностями, в том числе из-за конфиденциальности и уязвимости в процессе поиска помощи. Недостаточность качественных данных лимитирует возможности развития ИИ-систем, которые могли бы эффективно моделировать и поддерживать такие взаимодействия.
Кроме того, существующие ресурсы часто не отвечают потребностям в практически релевантных, педагогически богатых диалогах, которые могли бы отражать разнообразие ситуаций и характеристик участников. Это создает проблему для разработки ИИ-систем, способных предоставлять эффективную поддержку в образовательных и профессиональных контекстах. Необходимость в инновационных подходах для сбора данных, которые могли бы решить эти проблемы, является ключевым мотивом данного исследования.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Для решения этой проблемы предлагается **SimInstruct** — инструмент, разработанный для сбора диалогов скаффолдинга с использованием эксперт-в-лайн-подхода. SimInstruct использует языковые модели (LLM) для моделирования новичков-инструкторов, которые представляют различные уровни профессионального опыта и характеристики личности, такие как экстраверсия или интроверсия. Эти модели новичков взаимодействуют с реальными экспертами, которые предоставляют многоходовую обратную связь, анализ и пошаговые инструкции.
Ключевым элементом SimInstruct является возможность контролировать характеристики личности модели новичка, что позволяет создавать разнообразные сценарии взаимодействия. Эксперты могут адаптировать свой подход в зависимости от поведенческих характеристик новичка, что приводит к созданию более реалистичных и педагогически ценных диалогов. Данный подход не требует участия реальных новичков, что обходит проблемы конфиденциальности и уязвимости.
Кроме того, была проведена файн-тюнинг процедура модели LLaMA, которая была обучена на основе расширенного датасета, созданного с помощью SimInstruct. Эта модель эксперта (Expert Model) продемонтрировала значительное улучшение по сравнению с GPT-4o в плане качества инструктивного взаимодействия.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
В ходе исследования были проведены эксперименты, в которых SimInstract использовался для сбора диалогов в области развития преподавательских навыков. Данные, полученные с помощью SimInstruct, были сравнены с реальными записями менторинговых сессий. Результаты показали, что диалоги, сгенерированные SimInstruct, обладают сравнимой педагогической релевантностью и когнитивной глубиной по сравнению с реальными записями.
Кроме того, эксперты, участвовавшие в процессе, отметили высокую степень вовлеченности и рефлексии, что способствовало как повышению качества данных, так и развитию их собственных профессиональных навыков. Анализ показал, что характеристики личности модели новичка, такие как экстраверсия, влияют на то, как эксперты формулируют свои ответы и поддерживают диалог.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
SimInstruct имеет широкое применение в областях образования, профессионального развития и подготовки ИИ-систем для поддержки обучения. Инструмент позволяет создавать реалистичные и педагогически ценные диалоги без необходимости в участии реальных новичков, что решает проблемы конфиденциальности и доступности данных.
Преимущества SimInstruct включают в себя возможность моделирования различных характеристик новичков, что позволяет экспертам адаптировать свой подход и создавать более эффективные инструктивные стратегии. Благодаря этому, SimInstruct может быть использован для обучения ИИ-систем, которые поддерживают преподавателей, менторов и других профессионалов в процессе обучения и развития.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
Исследование демонстрирует успех SimInstruct в создании реалистичных и педагогически ценных диалогов скаффолдинга. Это открывает новые возможности для разработки ИИ-систем, которые могут эффективно поддерживать обучение и развитие начинающих.
Будущие исследования могут фокусироваться на дальнейшем улучшении моделей новичков, включая более точное моделирование индивидуальных характеристик и поведенческих тенденций. Кроме того, исследование может быть расширено на другие домены, где скаффолдинг играет ключевую роль, такие как медицинское образование или корпоративное обучение.
Abstract
High-quality, multi-turn instructional dialogues between novices and experts
are essential for developing AI systems that support teaching, learning, and
decision-making. These dialogues often involve scaffolding -- the process by
which an expert supports a novice's thinking through questions, feedback, and
step-by-step guidance. However, such data are scarce due to privacy concerns in
recording and the vulnerability inherent in help-seeking. We present
SimInstruct, a scalable, expert-in-the-loop tool for collecting scaffolding
dialogues. Using teaching development coaching as an example domain,
SimInstruct simulates novice instructors via LLMs, varying their teaching
challenges and LLM's persona traits, while human experts provide multi-turn
feedback, reasoning, and instructional support. This design enables the
creation of realistic, pedagogically rich dialogues without requiring real
novice participants. Our results reveal that persona traits, such as
extroversion and introversion, meaningfully influence how experts engage.
Compared to real mentoring recordings, SimInstruct dialogues demonstrate
comparable pedagogical relevance and cognitive depth. Experts also reported the
process as engaging and reflective, improving both data quality and their own
professional insight. We further fine-tuned a LLaMA model to be an expert model
using the augmented dataset, which outperformed GPT-4o in instructional
quality. Our analysis highlights GPT-4o's limitations in weak reflective
questioning, overuse of generic praise, a condescending tone, and a tendency to
overwhelm novices with excessive suggestions.
Ссылки и действия
Дополнительные ресурсы: