ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools

2508.03284v1 cs.AI 2025-08-06
Авторы:

Shaofeng Yin, Ting Lei, Yang Liu

Резюме на русском

**Резюме** Интеграция внешних инструментов в Большие Основные Модели (БОМ) представляет собой эффективный подход для улучшения их способностей к решению задач. Несмотря на высокую эффективность моделей, оснащенных инструментами, в задачах визуального ответа на вопросы (VQA), современные бенчмарки показывают ограниченную производительность в реальных многошаговых сценариях, требующих разнообразия функциональных возможностей. Для решения этой проблемы представлен ToolVQA — крупномасштабный мультимодальный датасет, состоящий из 23 тысяч примеров, основанных на реальных визуальных контекстах и требующих неявного многошагового рассуждения. Датасет был сгенерирован с помощью ToolEngine — инновационного конвейера, использующего глубинный поиск (DFS) и динамическое сопоставление примеров для моделирования человеческого рассуждения при использовании инструментов. ToolVQA охватывает 10 инструментов в 7 доменах задач со средним числом шагов рассуждения в 2,78 на пример. Файн-тюнинг БОМ на ToolVQA демонстрирует высокую эффективность, превосходящую GPT-3.5-turbo на выборках OOD, что подтверждает широкую применимость модели к реальным сценариям использования инструментов.

Abstract

Integrating external tools into Large Foundation Models (LFMs) has emerged as a promising approach to enhance their problem-solving capabilities. While existing studies have demonstrated strong performance in tool-augmented Visual Question Answering (VQA), recent benchmarks reveal significant gaps in real-world tool-use proficiency, particularly in functionally diverse multimodal settings requiring multi-step reasoning. In this work, we introduce ToolVQA, a large-scale multimodal dataset comprising 23K instances, designed to bridge this gap. Unlike previous datasets that rely on synthetic scenarios and simplified queries, ToolVQA features real-world visual contexts and challenging implicit multi-step reasoning tasks, better aligning with real user interactions. To construct this dataset, we propose ToolEngine, a novel data generation pipeline that employs Depth-First Search (DFS) with a dynamic in-context example matching mechanism to simulate human-like tool-use reasoning. ToolVQA encompasses 10 multimodal tools across 7 diverse task domains, with an average inference length of 2.78 reasoning steps per instance. The fine-tuned 7B LFMs on ToolVQA not only achieve impressive performance on our test set but also surpass the large close-sourced model GPT-3.5-turbo on various out-of-distribution (OOD) datasets, demonstrating strong generalizability to real-world tool-use scenarios.

Ссылки и действия