Beyond the Textual: Generating Coherent Visual Options for MCQs
2508.18772v1
cs.CV, cs.CL
2025-08-28
Авторы:
Wanqiang Wang, Longzhu He, Wei Zheng
Резюме на русском
## Контекст
Образовательные вопросы с несколькими вариантами ответов (MCQs) являются одним из основных средств в обучении, позволяющими формировать глубокое понимание и способность к анализу. Исследования, ранее проводившиеся в этой области, фокусировались преимущественно на текстовых вариантах ответов. Однако, в учебных материалах часто присутствуют как текстовые, так и визуальные элементы, что делает важной задачу генерации MCQs с визуальными вариантами ответов. Это приводит к проблемам, связанным с недостаточной разнообразием вариантов ответов и сложностью в создании качественных допущениями. Наше исследование направлено на развитие новых подходов, которые не только улучшат качество генерируемых вопросов, но и устранят эти ограничения.
## Метод
Мы предлагаем Cross-modal Options Synthesis (CmOS) — рамоструктурный подход для генерирования MCQs, включающий в себя несколько технологических компонентов. Мы используем Multimodal Chain-of-Thought (MCoT), который позволяет создавать вопросы с разумными вариантами ответов. Для расширения возможностей генерирования включается Retrieval-Augmented Generation (RAG), что обеспечивает доступ к большому количеству знаний. Для выделения вопросов, которые могут быть генерированы с визуальными вариантами, используется модуль дискриминации. В итоге, CmOS объединяет эти компоненты для создания качественных вопросов с визуальными вариантами ответов, что повышает их релевантность и ценность в образовательных рамках.
## Результаты
Мы провели эксперименты с тестовыми задачами, используя различные наборы данных и текстовые, а также визуальные варианты ответов. Результаты показали, что CmOS превосходит существующие методы в генерации качественных вопросов с визуальными вариантами ответов. Мы провели анализ яркости ответов и точности генерации, что подтвердило сильные позиции нашей модели. Благодаря интеграции MCoT и RAG, CmOS демонстрирует высокую точность и эффективность, особенно в сфере образовательных задач с визуальными элементами.
## Значимость
CmOS может использоваться в различных областях образования, в том числе для создания уроков, тестов и других учебных материалов с визуальными элементами. Он дает преимущество в том, что позволяет генерировать более разнообразные и качественные вопросы, открывая новые возможности для улучшения обучения. Данный подход может положительно сказаться на обучении студентов, повысив их интерес к интегрированной работе с текстом и визуальными материалами.
## Выводы
Мы представили CmOS, новый подход к генерации MCQs с визуальными вариантами ответов. Результаты наших эксп
Abstract
Multiple-choice questions (MCQs) play a crucial role in fostering deep
thinking and knowledge integration in education. However, previous research has
primarily focused on generating MCQs with textual options, but it largely
overlooks the visual options. Moreover, generating high-quality distractors
remains a major challenge due to the high cost and limited scalability of
manual authoring. To tackle these problems, we propose a Cross-modal Options
Synthesis (CmOS), a novel framework for generating educational MCQs with visual
options. Our framework integrates Multimodal Chain-of-Thought (MCoT) reasoning
process and Retrieval-Augmented Generation (RAG) to produce semantically
plausible and visually similar answer and distractors. It also includes a
discrimination module to identify content suitable for visual options.
Experimental results on test tasks demonstrate the superiority of CmOS in
content discrimination, question generation and visual option generation over
existing methods across various subjects and educational levels.
Ссылки и действия
Дополнительные ресурсы: