ProMQA-Assembly: Multimodal Procedural QA Dataset on Assembly

2509.02949v1 cs.CL, cs.CV 2025-09-05

Авторы:

Kimihiro Hasegawa, Wiradee Imrattanatrai, Masaki Asada, Susan Holm, Yuran Wang, Vincent Zhou, Ken Fukuda, Teruko Mitamura

Резюме на русском

## Контекст Процедурные вопросы и ответы (QA) на тему сборки являются ключевым аспектом в развитии систем помощников для сборочных задач. Однако существующие ресурсы не достаточно приспособлены для прикладных оценок систем в реальных условиях, особенно в сфере сборки. Это приводит к недостатку тестовых средств для эффективной оценки моделей в этой области. Для решения этой проблемы мы предлагаем новый многомодальный датасет QA под названием **ProMQA-Assembly**, который предназначен для оценки моделей процедурного QA в реальных условиях сборки. Этот датасет состоит из 391 пар вопросов и ответов, требующих многомодального понимания видеозаписей человеческих действий и их инструкционных мануалов. Мы применяем семиотоматизированный подход к подготовке данных, который сочетает генерирование кандидатов с помощью глубоких нейронных сетей и их проверку человеком. Этот подход позволяет снизить затраты и улучшить качество данных. Также мы вводим задачи сборки игрушевых автомобилей и создаем графы задач, используемые для оценки моделей и улучшения процесса верификации. ## Метод Мы разработали **ProMQA-Assembly**, новый многомодальный датасет QA, состоящий из видеозаписей, инструкционных мануалов и вопросов, требующих многомодального понимания. Для создания датасета мы использовали семиотоматизированный подход: глубокие нейронные сети генерируют кандидаты для вопросов и ответов, которые подвергаются отбору и проверке человеком. Это позволяет сократить затраты на подготовку данных и улучшить их качество. Мы также вводим графы задач для сборочных задач, таких как сборка игрушевых автомобилей, что помогает улучшить процесс проверки ответов и делает их более точными. Эти графы также используются в бенчмарк-экспериментах для оценки моделей QA. ## Результаты Мы провели эксперименты с использованием **ProMQA-Assembly** и сравнили результаты с современными моделями QA. Наши результаты показали, что текущие модели показывают низкий уровень точности в обработке многомодальных задач сборки. Это указывает на необходимость дальнейших исследований и улучшений в области многомодального QA для сборочных задач. Мы также выявили, что использование графов задач и многомодальных данных может существенно повысить качество моделей и улучшить их подход к решению задач сборки. ## Значимость Наш датасет **ProMQA-Assembly** может применяться в различных прикладных сферах, включая системы помощников для сборочных задач в промышленных условиях и домашних условиях. Он обеспечивает более точную оценку моделей QA, позволяя разработчикам создавать более эффективные системы. Этот датасет также может быть применен

Abstract

Assistants on assembly tasks have a large potential to benefit humans from everyday tasks to industrial settings. However, no testbeds support application-oriented system evaluation in a practical setting, especially in assembly. To foster the development, we propose a new multimodal QA dataset on assembly activities. Our dataset, ProMQA-Assembly, consists of 391 QA pairs that require the multimodal understanding of human-activity recordings and their instruction manuals in an online-style manner. In the development, we adopt a semi-automated QA annotation approach, where LLMs generate candidates and humans verify them, as a cost-effective method, and further improve it by integrating fine-grained action labels to diversify question types. Furthermore, we create instruction task graphs for the target tasks of assembling toy vehicles. These newly created task graphs are used in our benchmarking experiment, as well as to facilitate the human verification process in the QA annotation. Utilizing our dataset, we benchmark models, including competitive proprietary multimodal models. Our results suggest great room for improvement for the current models. We believe our new evaluation dataset can contribute to the further development of procedural-activity assistants.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ProMQA-Assembly: Multimodal Procedural QA Dataset on Assembly

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Visual Puns from Idioms: An Iterative LLM-T2IM-MLLM Framework

Optimizing Multimodal Language Models through Attention-based Interpretability

Bangla Sign Language Translation: Dataset Creation Challenges, Benchmarking and ...

Do Vision-Language Models Understand Visual Persuasiveness?

Arctic-Extract Technical Report

Навигация