Region-Level Context-Aware Multimodal Understanding
2508.12263v1
cs.CV, cs.AI
2025-08-19
Авторы:
Hongliang Wei, Xianqi Zhang, Xingtao Wang, Xiaopeng Fan, Debin Zhao
Резюме на русском
#### Контекст
В последние годы был продолжительный прогресс в области многомодальных языковых моделей (MLLMs). Однако имеются значительные проблемы в их отношении. Многие из них сосредоточены на улучшении общей визуальной поддержки, в то время как меньше внимания уделяется возможности интеграции текстового контекста, связанного с объектами, для получения более контекстно-ориентированного понимания мультимодальных данных. Это недостаток мы обозначили как **Region-Level Context-Aware Multimodal Understanding (RCMU)**. Задача RCMU заключается в том, чтобы модели могли реагировать на пользовательские команды, основываясь на информации, содержащейся в объектах изображения и их текстовых описаниях. Несмотря на то, что существуют многомидальные модели, их обработка контекстных связей между объектами и текстом остается недостаточной.
#### Метод
Для решения этой проблемы мы предлагаем **Region-Level Context-Aware Visual Instruction Tuning (RCVIT)**. Эта архитектура включает в себя объектно-ориентированные данные, например, баундинговые координаты объектов, для эффективной интеграции визуальных и текстовых данных. Модель RCVIT может оперировать напрямую с объектами на изображении, распознавая их контекстную связь с текстовым описанием. Таким образом, мы повышаем точность и контекстность реакции моделей на задачи мультимодального понимания.
Для проведения экспериментов мы разработали датасет **RCMU Dataset**, который содержит многочисленные задачи, требующие мультимодального понимания, включая RCMU. Для оценки того, насколько эффективно модели справляются с этими задачами, мы предложили **RC\&P-Bench** — комплексный бенчмарк, позволяющий измерить показатели в различных областях, включая RCMU и мультимодальную персонализацию. Также мы предложили новую метрику для референс-фри оценки, которая позволяет детально оценивать результаты обработки регионального контекста в изображениях.
#### Результаты
Мы провели эксперименты с моделями Qwen2-VL, используя RCMU Dataset для обучения. Результаты показали, что модели RC-Qwen2-VL, развитые с использованием RCVIT, демонстрируют выдающиеся результаты на нескольких тестах RCMU. Они не только достигли высокой точности, но и удачно применяются в таких задачах, как мультимодальное моделирование человеческого роста (Multimodal RAG) и персонализированная беседа. Эти результаты обосновывают мощь RCVIT и его приложений в различных сценариях.
#### Значимость
Наши разработки могут иметь широкое применение в многомодальных системах, включая системы разработки контента, персонализированные системы рекомендаций и интерактивные системы. Мы обладаем преимуществом в том, что RCVIT не только улучшает понимание
Abstract
Despite significant progress, existing research on Multimodal Large Language
Models (MLLMs) mainly focuses on general visual understanding, overlooking the
ability to integrate textual context associated with objects for a more
context-aware multimodal understanding -- an ability we refer to as
Region-level Context-aware Multimodal Understanding (RCMU). To address this
limitation, we first formulate the RCMU task, which requires models to respond
to user instructions by integrating both image content and textual information
of regions or objects. To equip MLLMs with RCMU capabilities, we propose
Region-level Context-aware Visual Instruction Tuning (RCVIT), which
incorporates object information into the model input and enables the model to
utilize bounding box coordinates to effectively associate objects' visual
content with their textual information. To address the lack of datasets, we
introduce the RCMU dataset, a large-scale visual instruction tuning dataset
that covers multiple RCMU tasks. We also propose RC\&P-Bench, a comprehensive
benchmark that can evaluate the performance of MLLMs in RCMU and multimodal
personalized understanding tasks. Additionally, we propose a reference-free
evaluation metric to perform a comprehensive and fine-grained evaluation of the
region-level context-aware image descriptions. By performing RCVIT on Qwen2-VL
models with the RCMU dataset, we developed RC-Qwen2-VL models. Experimental
results indicate that RC-Qwen2-VL models not only achieve outstanding
performance on multiple RCMU tasks but also demonstrate successful applications
in multimodal RAG and personalized conversation. Our data, model and benchmark
are available at https://github.com/hongliang-wei/RC-MLLM
Ссылки и действия
Дополнительные ресурсы: