Investigating the Design Space of Visual Grounding in Multimodal Large Language Model
2508.08066v1
cs.CV, cs.AI, cs.CL, cs.LG
2025-08-13
Авторы:
Weitai Kang, Weiming Zhuang, Zhizhong Li, Yan Yan, Lingjuan Lyu
Резюме на русском
## Контекст
В последние годы многомодальные большие языковые модели (MLLMs) стали центром внимания в искусственном интеллекте, особенно в сфере обработки текста и визуальной информации. Одной из ключевых задач, с которой сталкиваются эти модели, является **визуальная граундинг (Visual Grounding, VG)** — техника, которая позволяет модели ассоциировать текстовые запросы с конкретными объектами на изображениях. Несмотря на то, что существующие модели показали значительные улучшения в этой области, они часто используют различные и несогласованные подходы к оптимизации моделей для VG. Это существенно сковывает их потенциал и затрудняет правильные сравнения между подходами. В данном исследовании мы определились на полной исследовательской диаграмме, чтобы изучить, как различные дизайн-решения влияют на возможности MLLMs в области VG.
## Метод
Исследование включает детальный анализ различных дизайн-решений, влияющих на результаты VG в MLLMs. Мы выбрали **LLaVA-1.5** — одну из самых известных моделей MLLMs — для всех экспериментов, чтобы обеспечить выводы, которые могут быть распространены на другие архитектуры. Мы исследовали два главных вопроса:
1. **Изучение визуальных граундинговых парадигм**: Мы оценили разные подходы к визуальной граундинг-оптимизации MLLM, выявив максимально эффективные решения и получив полезные рекомендации для дальнейшей работы.
2. **Оптимизация данных для VG**: Мы проводили абляционные исследования для оптимизации тренировочных данных в VG, чтобы определить, как желательно изменять модель в ходе тренировки.
## Результаты
Наши эксперименты показали, что управление различными дизайн-решениями может значительно влиять на результаты VG моделей. Мы обнаружили, что наша оптимизированная модель LLaVA-1.5 показала улучшение в +5.6% / +6.9% / +7.0% на RefCOCO/+/g общих данных по сравнению с исходной версией. Эти результаты указывают на значительный вклад нашего исследования в улучшение качества визуальных граундинговых моделей.
## Значимость
Наша работа имеет широкие применения в области многомодального обучения и визуальной граундинг-оптимизации. Она может заинтересовать исследователей, работающих в сфере мультимодальных моделей и технологий обработки текста и изображений. Наши рекомендации могут помочь сократить разрыв между теоретическим потенциалом и практическим применением визуальной граундинг-технологии в MLLMs. Кроме того, наши результаты открывают возможности для дальнейшего исследования в этих областях, в том числе разработки более сложных моделей и улучшения существующих архитектур.
## Вы
Abstract
Fine-grained multimodal capability in Multimodal Large Language Models
(MLLMs) has emerged as a critical research direction, particularly for tackling
the visual grounding (VG) problem. Despite the strong performance achieved by
existing approaches, they often employ disparate design choices when
fine-tuning MLLMs for VG, lacking systematic verification to support these
designs. To bridge this gap, this paper presents a comprehensive study of
various design choices that impact the VG performance of MLLMs. We conduct our
analysis using LLaVA-1.5, which has been widely adopted in prior empirical
studies of MLLMs. While more recent models exist, we follow this convention to
ensure our findings remain broadly applicable and extendable to other
architectures. We cover two key aspects: (1) exploring different visual
grounding paradigms in MLLMs, identifying the most effective design, and
providing our insights; and (2) conducting ablation studies on the design of
grounding data to optimize MLLMs' fine-tuning for the VG task. Finally, our
findings contribute to a stronger MLLM for VG, achieving improvements of +5.6%
/ +6.9% / +7.0% on RefCOCO/+/g over the LLaVA-1.5.