Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation

2508.12680v1 cs.CV, cs.CL 2025-08-20
Авторы:

Yuheng Zha, Kun Zhou, Yujia Wu, Yushu Wang, Jie Feng, Zhi Xu, Shibo Hao, Zhengzhong Liu, Eric P. Xing, Zhiting Hu

Резюме на русском

## Контекст Научные исследования в области визуального языкового рассуждения (Visual Language Reasoning, VLR) становятся все более важными в связи с потребностью в моделях, которые могут справляться с разнообразными задачами, включая математическое, логическое и интуитивное рассуждение. Однако существующие модели часто страдают от ограниченности в области применения и сложностях при обучении на многообразных данных. Дефицит качественных данных и сложности интеграции данных из различных доменов остаются значимыми проблемами. В этом контексте поставлена цель разработки обобщенной визуально-языковой модели, способной эффективно осуществлять рассуждения в различных областях. ## Метод Мы предлагаем новую архитектуру визуальной модели, названную Vision-G1, которая основывается на методе оптимизации посредством градиентов с использованием визуальных и языковых признаков. Алгоритм обучения включает многоуровневую итерационную стратегию, применяющую данные из 46 источников в 8 различных доменов. Для выбора высококачественных обучающих примеров используется метод определения влияния и фильтрации по сложности задачи. Модель обучается с использованием многоитерационного метода реактивного обучения (Reinforcement Learning, RL) с последовательным курсивным обучением (curriculum learning). Это позволяет модели стремительно улучшать свои визуально-языковые навыки в ходе обучения. ## Результаты Мы проводили эксперименты на нескольких визуально-языковых бенчмарках, включая данные из математических, логических и гуманитарных наук. Модель Vision-G1 показала выдающиеся результаты, превосходя свои собратьев менее чем по размеру (схожими по размеру моделями) и даже проприетарные модели, такие как GPT-4o и Gemini-1.5 Flash. Был достигнут состояние-искусства (state-of-the-art) в нескольких задачах, включая предсказание результатов и распознавание объектов на изображениях. Эти результаты демонстрируют значительную улучшенную универсальность и точность визуального рассуждения. ## Значимость Результаты модели Vision-G1 открывают новые возможности для областей, требующих рассуждений, в том числе автоматизированной оценки, интерактивных систем и систем поддержки решений. Модель демонстрирует преимущества в области общей визуальной и языковой работы, уменьшая необходимость в отдельных моделях для каждого домена. Ее мощь и гибкость делают ее оптимальным решением для будущих задач визуального и языкового рассуждения, в том числе в области искусственного интеллекта и робототехники. ## Выводы Мы представили Vision-G1, обобщенную визуально-языковую модель, оптимизирова

Abstract

Despite their success, current training pipelines for reasoning VLMs focus on a limited range of tasks, such as mathematical and logical reasoning. As a result, these models face difficulties in generalizing their reasoning capabilities to a wide range of domains, primarily due to the scarcity of readily available and verifiable reward data beyond these narrowly defined areas. Moreover, integrating data from multiple domains is challenging, as the compatibility between domain-specific datasets remains uncertain. To address these limitations, we build a comprehensive RL-ready visual reasoning dataset from 46 data sources across 8 dimensions, covering a wide range of tasks such as infographic, mathematical, spatial, cross-image, graphic user interface, medical, common sense and general science. We propose an influence function based data selection and difficulty based filtering strategy to identify high-quality training samples from this dataset. Subsequently, we train the VLM, referred to as Vision-G1, using multi-round RL with a data curriculum to iteratively improve its visual reasoning capabilities. Our model achieves state-of-the-art performance across various visual reasoning benchmarks, outperforming similar-sized VLMs and even proprietary models like GPT-4o and Gemini-1.5 Flash. The model, code and dataset are publicly available at https://github.com/yuh-zha/Vision-G1.

Ссылки и действия