Boosting Visual Knowledge-Intensive Training for LVLMs Through Causality-Driven Visual Object Completion
2508.04453v1
cs.CV
2025-08-09
Авторы:
Qingguo Hu, Ante Wang, Jia Song, Delai Qiu, Qingsong Liu, Jinsong Su
Резюме на русском
Недавние достижения в области Large Vision-Language Models (LVLMs) позволили повысить их мощность в обработке текстов и изображений. Однако их эффективность в задачах, требующих глубокого визуального понимания, таких как определение тонких различий между изображениями, до сих пор остается недостаточной. Решение этой проблемы лежит в использовании лучших подходов к визуальному обучению.
Мы предлагаем **Causality-Driven Visual Object Completion (CVC)** — новый подход для улучшения визуальных знаний LVLMs. CVC включает в себя задачу предсказания удаленного объекта в изображении на основе его логических (казуальных) связей с остальным визуальным контекстом. Так как в популярных инструктивных корпусах лимитированное количество визуальных примеров, CVC обеспечивает экономичный способ пополнения этих примеров с помощью автоматической генерации данных. Эта методика позволяет LVLMs проводить самостоятельное тренирование через использование этих примеров, что улучшает их визуальные проблемы.
В результате, наши эксперименты показали сильную улучшение в представлении визуальных данных на 4 специализированных и 4 общих задачах. Точность моделей LLaVA-1.5-7B и LLaVA-1.5-13B увеличилась на 5.4% и 4.0% соответственно. Этот подход показал свою эффективность в повышении визуально-лингвистического понимания LVLMs.
Abstract
Large Vision-Language Models (LVLMs) have experienced significant
advancements in recent years. However, their performance still falls short in
tasks requiring deep visual perception, such as identifying subtle differences
between images. A potential cause is the scarcity of visual knowledge in
popular instruction-tuning corpora, resulting in inadequate visual perception
and reasoning capabilities. To address this challenge, we introduce a
self-improvement framework grounded in a novel visual knowledge-intensive task,
\underline{C}ausality-driven \underline{V}isual object \underline{C}ompletion
(CVC). This task requires LVLMs to infer the masked object in an image based on
its \textit{causal} relationships with the other visible information. We first
obtain rich examples cheaply through our automated instance construction
pipeline, without relying on sophisticated LVLMs (\textit{e.g.}, GPT-4V) or
human assistance. Then, LVLMs effectively self-improve through trial and error
learning using these created instances. Our experiments demonstrate substantial
gains across four challenging specialized tasks and four widely-used
comprehensive benchmarks. Especially on specialized tasks, our method achieves
an average improvement of 5.4\% and 4.0\% compared to the corresponding
baselines when utilizing LLaVA-1.5-7B and LLaVA-1.5-13B, respectively. The code
is available at https://github.com/XMUDeepLIT/CVC.
Ссылки и действия
Дополнительные ресурсы: