Region-Level Context-Aware Multimodal Understanding

2508.12263v1 cs.CV, cs.AI 2025-08-19
Авторы:

Hongliang Wei, Xianqi Zhang, Xingtao Wang, Xiaopeng Fan, Debin Zhao

Резюме на русском

#### Контекст В последние годы был продолжительный прогресс в области многомодальных языковых моделей (MLLMs). Однако имеются значительные проблемы в их отношении. Многие из них сосредоточены на улучшении общей визуальной поддержки, в то время как меньше внимания уделяется возможности интеграции текстового контекста, связанного с объектами, для получения более контекстно-ориентированного понимания мультимодальных данных. Это недостаток мы обозначили как **Region-Level Context-Aware Multimodal Understanding (RCMU)**. Задача RCMU заключается в том, чтобы модели могли реагировать на пользовательские команды, основываясь на информации, содержащейся в объектах изображения и их текстовых описаниях. Несмотря на то, что существуют многомидальные модели, их обработка контекстных связей между объектами и текстом остается недостаточной. #### Метод Для решения этой проблемы мы предлагаем **Region-Level Context-Aware Visual Instruction Tuning (RCVIT)**. Эта архитектура включает в себя объектно-ориентированные данные, например, баундинговые координаты объектов, для эффективной интеграции визуальных и текстовых данных. Модель RCVIT может оперировать напрямую с объектами на изображении, распознавая их контекстную связь с текстовым описанием. Таким образом, мы повышаем точность и контекстность реакции моделей на задачи мультимодального понимания. Для проведения экспериментов мы разработали датасет **RCMU Dataset**, который содержит многочисленные задачи, требующие мультимодального понимания, включая RCMU. Для оценки того, насколько эффективно модели справляются с этими задачами, мы предложили **RC\&P-Bench** — комплексный бенчмарк, позволяющий измерить показатели в различных областях, включая RCMU и мультимодальную персонализацию. Также мы предложили новую метрику для референс-фри оценки, которая позволяет детально оценивать результаты обработки регионального контекста в изображениях. #### Результаты Мы провели эксперименты с моделями Qwen2-VL, используя RCMU Dataset для обучения. Результаты показали, что модели RC-Qwen2-VL, развитые с использованием RCVIT, демонстрируют выдающиеся результаты на нескольких тестах RCMU. Они не только достигли высокой точности, но и удачно применяются в таких задачах, как мультимодальное моделирование человеческого роста (Multimodal RAG) и персонализированная беседа. Эти результаты обосновывают мощь RCVIT и его приложений в различных сценариях. #### Значимость Наши разработки могут иметь широкое применение в многомодальных системах, включая системы разработки контента, персонализированные системы рекомендаций и интерактивные системы. Мы обладаем преимуществом в том, что RCVIT не только улучшает понимание

Abstract

Despite significant progress, existing research on Multimodal Large Language Models (MLLMs) mainly focuses on general visual understanding, overlooking the ability to integrate textual context associated with objects for a more context-aware multimodal understanding -- an ability we refer to as Region-level Context-aware Multimodal Understanding (RCMU). To address this limitation, we first formulate the RCMU task, which requires models to respond to user instructions by integrating both image content and textual information of regions or objects. To equip MLLMs with RCMU capabilities, we propose Region-level Context-aware Visual Instruction Tuning (RCVIT), which incorporates object information into the model input and enables the model to utilize bounding box coordinates to effectively associate objects' visual content with their textual information. To address the lack of datasets, we introduce the RCMU dataset, a large-scale visual instruction tuning dataset that covers multiple RCMU tasks. We also propose RC\&P-Bench, a comprehensive benchmark that can evaluate the performance of MLLMs in RCMU and multimodal personalized understanding tasks. Additionally, we propose a reference-free evaluation metric to perform a comprehensive and fine-grained evaluation of the region-level context-aware image descriptions. By performing RCVIT on Qwen2-VL models with the RCMU dataset, we developed RC-Qwen2-VL models. Experimental results indicate that RC-Qwen2-VL models not only achieve outstanding performance on multiple RCMU tasks but also demonstrate successful applications in multimodal RAG and personalized conversation. Our data, model and benchmark are available at https://github.com/hongliang-wei/RC-MLLM

Ссылки и действия