Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation
2508.12680v1
cs.CV, cs.CL
2025-08-20
Авторы:
Yuheng Zha, Kun Zhou, Yujia Wu, Yushu Wang, Jie Feng, Zhi Xu, Shibo Hao, Zhengzhong Liu, Eric P. Xing, Zhiting Hu
Резюме на русском
## Контекст
Научные исследования в области визуального языкового рассуждения (Visual Language Reasoning, VLR) становятся все более важными в связи с потребностью в моделях, которые могут справляться с разнообразными задачами, включая математическое, логическое и интуитивное рассуждение. Однако существующие модели часто страдают от ограниченности в области применения и сложностях при обучении на многообразных данных. Дефицит качественных данных и сложности интеграции данных из различных доменов остаются значимыми проблемами. В этом контексте поставлена цель разработки обобщенной визуально-языковой модели, способной эффективно осуществлять рассуждения в различных областях.
## Метод
Мы предлагаем новую архитектуру визуальной модели, названную Vision-G1, которая основывается на методе оптимизации посредством градиентов с использованием визуальных и языковых признаков. Алгоритм обучения включает многоуровневую итерационную стратегию, применяющую данные из 46 источников в 8 различных доменов. Для выбора высококачественных обучающих примеров используется метод определения влияния и фильтрации по сложности задачи. Модель обучается с использованием многоитерационного метода реактивного обучения (Reinforcement Learning, RL) с последовательным курсивным обучением (curriculum learning). Это позволяет модели стремительно улучшать свои визуально-языковые навыки в ходе обучения.
## Результаты
Мы проводили эксперименты на нескольких визуально-языковых бенчмарках, включая данные из математических, логических и гуманитарных наук. Модель Vision-G1 показала выдающиеся результаты, превосходя свои собратьев менее чем по размеру (схожими по размеру моделями) и даже проприетарные модели, такие как GPT-4o и Gemini-1.5 Flash. Был достигнут состояние-искусства (state-of-the-art) в нескольких задачах, включая предсказание результатов и распознавание объектов на изображениях. Эти результаты демонстрируют значительную улучшенную универсальность и точность визуального рассуждения.
## Значимость
Результаты модели Vision-G1 открывают новые возможности для областей, требующих рассуждений, в том числе автоматизированной оценки, интерактивных систем и систем поддержки решений. Модель демонстрирует преимущества в области общей визуальной и языковой работы, уменьшая необходимость в отдельных моделях для каждого домена. Ее мощь и гибкость делают ее оптимальным решением для будущих задач визуального и языкового рассуждения, в том числе в области искусственного интеллекта и робототехники.
## Выводы
Мы представили Vision-G1, обобщенную визуально-языковую модель, оптимизирова
Abstract
Despite their success, current training pipelines for reasoning VLMs focus on
a limited range of tasks, such as mathematical and logical reasoning. As a
result, these models face difficulties in generalizing their reasoning
capabilities to a wide range of domains, primarily due to the scarcity of
readily available and verifiable reward data beyond these narrowly defined
areas. Moreover, integrating data from multiple domains is challenging, as the
compatibility between domain-specific datasets remains uncertain. To address
these limitations, we build a comprehensive RL-ready visual reasoning dataset
from 46 data sources across 8 dimensions, covering a wide range of tasks such
as infographic, mathematical, spatial, cross-image, graphic user interface,
medical, common sense and general science. We propose an influence function
based data selection and difficulty based filtering strategy to identify
high-quality training samples from this dataset. Subsequently, we train the
VLM, referred to as Vision-G1, using multi-round RL with a data curriculum to
iteratively improve its visual reasoning capabilities. Our model achieves
state-of-the-art performance across various visual reasoning benchmarks,
outperforming similar-sized VLMs and even proprietary models like GPT-4o and
Gemini-1.5 Flash. The model, code and dataset are publicly available at
https://github.com/yuh-zha/Vision-G1.
Ссылки и действия
Дополнительные ресурсы: