ProMQA-Assembly: Multimodal Procedural QA Dataset on Assembly
2509.02949v1
cs.CL, cs.CV
2025-09-05
Авторы:
Kimihiro Hasegawa, Wiradee Imrattanatrai, Masaki Asada, Susan Holm, Yuran Wang, Vincent Zhou, Ken Fukuda, Teruko Mitamura
Резюме на русском
## Контекст
Процедурные вопросы и ответы (QA) на тему сборки являются ключевым аспектом в развитии систем помощников для сборочных задач. Однако существующие ресурсы не достаточно приспособлены для прикладных оценок систем в реальных условиях, особенно в сфере сборки. Это приводит к недостатку тестовых средств для эффективной оценки моделей в этой области. Для решения этой проблемы мы предлагаем новый многомодальный датасет QA под названием **ProMQA-Assembly**, который предназначен для оценки моделей процедурного QA в реальных условиях сборки. Этот датасет состоит из 391 пар вопросов и ответов, требующих многомодального понимания видеозаписей человеческих действий и их инструкционных мануалов. Мы применяем семиотоматизированный подход к подготовке данных, который сочетает генерирование кандидатов с помощью глубоких нейронных сетей и их проверку человеком. Этот подход позволяет снизить затраты и улучшить качество данных. Также мы вводим задачи сборки игрушевых автомобилей и создаем графы задач, используемые для оценки моделей и улучшения процесса верификации.
## Метод
Мы разработали **ProMQA-Assembly**, новый многомодальный датасет QA, состоящий из видеозаписей, инструкционных мануалов и вопросов, требующих многомодального понимания. Для создания датасета мы использовали семиотоматизированный подход: глубокие нейронные сети генерируют кандидаты для вопросов и ответов, которые подвергаются отбору и проверке человеком. Это позволяет сократить затраты на подготовку данных и улучшить их качество. Мы также вводим графы задач для сборочных задач, таких как сборка игрушевых автомобилей, что помогает улучшить процесс проверки ответов и делает их более точными. Эти графы также используются в бенчмарк-экспериментах для оценки моделей QA.
## Результаты
Мы провели эксперименты с использованием **ProMQA-Assembly** и сравнили результаты с современными моделями QA. Наши результаты показали, что текущие модели показывают низкий уровень точности в обработке многомодальных задач сборки. Это указывает на необходимость дальнейших исследований и улучшений в области многомодального QA для сборочных задач. Мы также выявили, что использование графов задач и многомодальных данных может существенно повысить качество моделей и улучшить их подход к решению задач сборки.
## Значимость
Наш датасет **ProMQA-Assembly** может применяться в различных прикладных сферах, включая системы помощников для сборочных задач в промышленных условиях и домашних условиях. Он обеспечивает более точную оценку моделей QA, позволяя разработчикам создавать более эффективные системы. Этот датасет также может быть применен
Abstract
Assistants on assembly tasks have a large potential to benefit humans from
everyday tasks to industrial settings. However, no testbeds support
application-oriented system evaluation in a practical setting, especially in
assembly. To foster the development, we propose a new multimodal QA dataset on
assembly activities. Our dataset, ProMQA-Assembly, consists of 391 QA pairs
that require the multimodal understanding of human-activity recordings and
their instruction manuals in an online-style manner. In the development, we
adopt a semi-automated QA annotation approach, where LLMs generate candidates
and humans verify them, as a cost-effective method, and further improve it by
integrating fine-grained action labels to diversify question types.
Furthermore, we create instruction task graphs for the target tasks of
assembling toy vehicles. These newly created task graphs are used in our
benchmarking experiment, as well as to facilitate the human verification
process in the QA annotation. Utilizing our dataset, we benchmark models,
including competitive proprietary multimodal models. Our results suggest great
room for improvement for the current models. We believe our new evaluation
dataset can contribute to the further development of procedural-activity
assistants.
Ссылки и действия
Дополнительные ресурсы: