Boosting Visual Knowledge-Intensive Training for LVLMs Through Causality-Driven Visual Object Completion

2508.04453v1 cs.CV 2025-08-09
Авторы:

Qingguo Hu, Ante Wang, Jia Song, Delai Qiu, Qingsong Liu, Jinsong Su

Резюме на русском

Недавние достижения в области Large Vision-Language Models (LVLMs) позволили повысить их мощность в обработке текстов и изображений. Однако их эффективность в задачах, требующих глубокого визуального понимания, таких как определение тонких различий между изображениями, до сих пор остается недостаточной. Решение этой проблемы лежит в использовании лучших подходов к визуальному обучению. Мы предлагаем **Causality-Driven Visual Object Completion (CVC)** — новый подход для улучшения визуальных знаний LVLMs. CVC включает в себя задачу предсказания удаленного объекта в изображении на основе его логических (казуальных) связей с остальным визуальным контекстом. Так как в популярных инструктивных корпусах лимитированное количество визуальных примеров, CVC обеспечивает экономичный способ пополнения этих примеров с помощью автоматической генерации данных. Эта методика позволяет LVLMs проводить самостоятельное тренирование через использование этих примеров, что улучшает их визуальные проблемы. В результате, наши эксперименты показали сильную улучшение в представлении визуальных данных на 4 специализированных и 4 общих задачах. Точность моделей LLaVA-1.5-7B и LLaVA-1.5-13B увеличилась на 5.4% и 4.0% соответственно. Этот подход показал свою эффективность в повышении визуально-лингвистического понимания LVLMs.

Abstract

Large Vision-Language Models (LVLMs) have experienced significant advancements in recent years. However, their performance still falls short in tasks requiring deep visual perception, such as identifying subtle differences between images. A potential cause is the scarcity of visual knowledge in popular instruction-tuning corpora, resulting in inadequate visual perception and reasoning capabilities. To address this challenge, we introduce a self-improvement framework grounded in a novel visual knowledge-intensive task, \underline{C}ausality-driven \underline{V}isual object \underline{C}ompletion (CVC). This task requires LVLMs to infer the masked object in an image based on its \textit{causal} relationships with the other visible information. We first obtain rich examples cheaply through our automated instance construction pipeline, without relying on sophisticated LVLMs (\textit{e.g.}, GPT-4V) or human assistance. Then, LVLMs effectively self-improve through trial and error learning using these created instances. Our experiments demonstrate substantial gains across four challenging specialized tasks and four widely-used comprehensive benchmarks. Especially on specialized tasks, our method achieves an average improvement of 5.4\% and 4.0\% compared to the corresponding baselines when utilizing LLaVA-1.5-7B and LLaVA-1.5-13B, respectively. The code is available at https://github.com/XMUDeepLIT/CVC.

Ссылки и действия