Beyond the Textual: Generating Coherent Visual Options for MCQs

2508.18772v1 cs.CV, cs.CL 2025-08-28

Авторы:

Wanqiang Wang, Longzhu He, Wei Zheng

Резюме на русском

## Контекст Образовательные вопросы с несколькими вариантами ответов (MCQs) являются одним из основных средств в обучении, позволяющими формировать глубокое понимание и способность к анализу. Исследования, ранее проводившиеся в этой области, фокусировались преимущественно на текстовых вариантах ответов. Однако, в учебных материалах часто присутствуют как текстовые, так и визуальные элементы, что делает важной задачу генерации MCQs с визуальными вариантами ответов. Это приводит к проблемам, связанным с недостаточной разнообразием вариантов ответов и сложностью в создании качественных допущениями. Наше исследование направлено на развитие новых подходов, которые не только улучшат качество генерируемых вопросов, но и устранят эти ограничения. ## Метод Мы предлагаем Cross-modal Options Synthesis (CmOS) — рамоструктурный подход для генерирования MCQs, включающий в себя несколько технологических компонентов. Мы используем Multimodal Chain-of-Thought (MCoT), который позволяет создавать вопросы с разумными вариантами ответов. Для расширения возможностей генерирования включается Retrieval-Augmented Generation (RAG), что обеспечивает доступ к большому количеству знаний. Для выделения вопросов, которые могут быть генерированы с визуальными вариантами, используется модуль дискриминации. В итоге, CmOS объединяет эти компоненты для создания качественных вопросов с визуальными вариантами ответов, что повышает их релевантность и ценность в образовательных рамках. ## Результаты Мы провели эксперименты с тестовыми задачами, используя различные наборы данных и текстовые, а также визуальные варианты ответов. Результаты показали, что CmOS превосходит существующие методы в генерации качественных вопросов с визуальными вариантами ответов. Мы провели анализ яркости ответов и точности генерации, что подтвердило сильные позиции нашей модели. Благодаря интеграции MCoT и RAG, CmOS демонстрирует высокую точность и эффективность, особенно в сфере образовательных задач с визуальными элементами. ## Значимость CmOS может использоваться в различных областях образования, в том числе для создания уроков, тестов и других учебных материалов с визуальными элементами. Он дает преимущество в том, что позволяет генерировать более разнообразные и качественные вопросы, открывая новые возможности для улучшения обучения. Данный подход может положительно сказаться на обучении студентов, повысив их интерес к интегрированной работе с текстом и визуальными материалами. ## Выводы Мы представили CmOS, новый подход к генерации MCQs с визуальными вариантами ответов. Результаты наших эксп

Abstract

Multiple-choice questions (MCQs) play a crucial role in fostering deep thinking and knowledge integration in education. However, previous research has primarily focused on generating MCQs with textual options, but it largely overlooks the visual options. Moreover, generating high-quality distractors remains a major challenge due to the high cost and limited scalability of manual authoring. To tackle these problems, we propose a Cross-modal Options Synthesis (CmOS), a novel framework for generating educational MCQs with visual options. Our framework integrates Multimodal Chain-of-Thought (MCoT) reasoning process and Retrieval-Augmented Generation (RAG) to produce semantically plausible and visually similar answer and distractors. It also includes a discrimination module to identify content suitable for visual options. Experimental results on test tasks demonstrate the superiority of CmOS in content discrimination, question generation and visual option generation over existing methods across various subjects and educational levels.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Beyond the Textual: Generating Coherent Visual Options for MCQs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация