\textsc{SimInstruct}: A Responsible Tool for Collecting Scaffolding Dialogues Between Experts and LLM-Simulated Novices

2508.04428v1 cs.AI 2025-08-09

Авторы:

Si Chen, Izzy Molnar, Ting Hua, Peiyu Li, Le Huy Khiem, G. Alex Ambrose, Jim Lang, Ronald Metoyer, Nitesh V. Chawla

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Высококачественные многоходовые инструктивные диалоги между начинающими и экспертами являются необходимым компонентом для создания ИИ-систем, поддерживающих обучение, преподавание и принятие решений. Такие диалоги часто включают в себя скаффолдинг (scaffolding) — процесс, при котором эксперт поддерживает мышление новичка с помощью вопросов, обратной связи и пошагового руководства. Однако сбор таких данных сталкивается со значительными трудностями, в том числе из-за конфиденциальности и уязвимости в процессе поиска помощи. Недостаточность качественных данных лимитирует возможности развития ИИ-систем, которые могли бы эффективно моделировать и поддерживать такие взаимодействия. Кроме того, существующие ресурсы часто не отвечают потребностям в практически релевантных, педагогически богатых диалогах, которые могли бы отражать разнообразие ситуаций и характеристик участников. Это создает проблему для разработки ИИ-систем, способных предоставлять эффективную поддержку в образовательных и профессиональных контекстах. Необходимость в инновационных подходах для сбора данных, которые могли бы решить эти проблемы, является ключевым мотивом данного исследования. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы предлагается **SimInstruct** — инструмент, разработанный для сбора диалогов скаффолдинга с использованием эксперт-в-лайн-подхода. SimInstruct использует языковые модели (LLM) для моделирования новичков-инструкторов, которые представляют различные уровни профессионального опыта и характеристики личности, такие как экстраверсия или интроверсия. Эти модели новичков взаимодействуют с реальными экспертами, которые предоставляют многоходовую обратную связь, анализ и пошаговые инструкции. Ключевым элементом SimInstruct является возможность контролировать характеристики личности модели новичка, что позволяет создавать разнообразные сценарии взаимодействия. Эксперты могут адаптировать свой подход в зависимости от поведенческих характеристик новичка, что приводит к созданию более реалистичных и педагогически ценных диалогов. Данный подход не требует участия реальных новичков, что обходит проблемы конфиденциальности и уязвимости. Кроме того, была проведена файн-тюнинг процедура модели LLaMA, которая была обучена на основе расширенного датасета, созданного с помощью SimInstruct. Эта модель эксперта (Expert Model) продемонтрировала значительное улучшение по сравнению с GPT-4o в плане качества инструктивного взаимодействия. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе исследования были проведены эксперименты, в которых SimInstract использовался для сбора диалогов в области развития преподавательских навыков. Данные, полученные с помощью SimInstruct, были сравнены с реальными записями менторинговых сессий. Результаты показали, что диалоги, сгенерированные SimInstruct, обладают сравнимой педагогической релевантностью и когнитивной глубиной по сравнению с реальными записями. Кроме того, эксперты, участвовавшие в процессе, отметили высокую степень вовлеченности и рефлексии, что способствовало как повышению качества данных, так и развитию их собственных профессиональных навыков. Анализ показал, что характеристики личности модели новичка, такие как экстраверсия, влияют на то, как эксперты формулируют свои ответы и поддерживают диалог. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SimInstruct имеет широкое применение в областях образования, профессионального развития и подготовки ИИ-систем для поддержки обучения. Инструмент позволяет создавать реалистичные и педагогически ценные диалоги без необходимости в участии реальных новичков, что решает проблемы конфиденциальности и доступности данных. Преимущества SimInstruct включают в себя возможность моделирования различных характеристик новичков, что позволяет экспертам адаптировать свой подход и создавать более эффективные инструктивные стратегии. Благодаря этому, SimInstruct может быть использован для обучения ИИ-систем, которые поддерживают преподавателей, менторов и других профессионалов в процессе обучения и развития. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует успех SimInstruct в создании реалистичных и педагогически ценных диалогов скаффолдинга. Это открывает новые возможности для разработки ИИ-систем, которые могут эффективно поддерживать обучение и развитие начинающих. Будущие исследования могут фокусироваться на дальнейшем улучшении моделей новичков, включая более точное моделирование индивидуальных характеристик и поведенческих тенденций. Кроме того, исследование может быть расширено на другие домены, где скаффолдинг играет ключевую роль, такие как медицинское образование или корпоративное обучение.

Abstract

High-quality, multi-turn instructional dialogues between novices and experts are essential for developing AI systems that support teaching, learning, and decision-making. These dialogues often involve scaffolding -- the process by which an expert supports a novice's thinking through questions, feedback, and step-by-step guidance. However, such data are scarce due to privacy concerns in recording and the vulnerability inherent in help-seeking. We present SimInstruct, a scalable, expert-in-the-loop tool for collecting scaffolding dialogues. Using teaching development coaching as an example domain, SimInstruct simulates novice instructors via LLMs, varying their teaching challenges and LLM's persona traits, while human experts provide multi-turn feedback, reasoning, and instructional support. This design enables the creation of realistic, pedagogically rich dialogues without requiring real novice participants. Our results reveal that persona traits, such as extroversion and introversion, meaningfully influence how experts engage. Compared to real mentoring recordings, SimInstruct dialogues demonstrate comparable pedagogical relevance and cognitive depth. Experts also reported the process as engaging and reflective, improving both data quality and their own professional insight. We further fine-tuned a LLaMA model to be an expert model using the augmented dataset, which outperformed GPT-4o in instructional quality. Our analysis highlights GPT-4o's limitations in weak reflective questioning, overuse of generic praise, a condescending tone, and a tendency to overwhelm novices with excessive suggestions.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

\textsc{SimInstruct}: A Responsible Tool for Collecting Scaffolding Dialogues Between Experts and LLM-Simulated Novices

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Executable Governance for AI: Translating Policies into Rules Using LLMs

Solving LLM Repetition Problem in Production: A Comprehensive Study of Multiple ...

BiTAgent: A Task-Aware Modular Framework for Bidirectional Coupling between Mult...

SlideGen: Collaborative Multimodal Agents for Scientific Slide Generation

GTM: Simulating the World of Tools for AI Agents

Навигация