From Bias to Balance: Exploring and Mitigating Spatial Bias in LVLMs

2509.21984v1 cs.CV, cs.CL 2025-09-30
Авторы:

Yingjie Zhu, Xuefeng Bai, Kehai Chen, Yang Xiang, Weili Guan, Jun Yu, Min Zhang

Резюме на русском

#### Контекст Large Vision-Language Models (LVLMs) зарекомендовали себя в решении многообразных задач, включая описание изображений, вопрос-ответ и оценку яркости текста. Однако их устойчивость к пространственным изменениям в изображениях остается недостаточно исследована. Любые изменения места расположения объектов или текста могут привести к разным выводам, даже когда содержание изображения остается неизменным. Это ставит под сомнение надежность текущих моделей в работе со сложными сценариями, где пространственная симметрия играет ключевую роль. Исследование проблемы подлинности и устойчивости моделей к пространственным изменениям является актуальным и необходимым для исправления ограничений и улучшения качества прогнозирования. #### Метод Для изучения проблемы пространственной биаса в LVLMs разработана специальная пробная выборка, в которой изображения отличаются только местом размещения ключевого объекта. Эта методика позволяет сравнить выводы моделей в зависимости от положения объекта в изображении. Технический подход включал анализ поведения моделей с разными стратегиями позиционных эмбеддингов и их влиянием на кросс-модальный синтез. Было проанализировано, как различные реализации позиционных эмбеддингов (например, RoPE) влияют на представление пространственных данных в моделях. Также была разработана новая стратегия, **Balanced Position Assignment (BaPA)**, которая присваивает одинаковые позиционные эмбеддинги всем токенам изображения, чтобы сбалансировать их вклад в кросс-модальный анализ. #### Результаты С помощью пробной выборки было показано, что LVLMs часто дают разные ответы на задачи, где ключевой объект расположен в разных частях изображения. Эксперименты показали, что проблема происходит не из-за визуального режима, который правильно воспринимает объекты независимо от их положения, но из-за несбалансированного обработки позиций в модели языка. Применение BaPA позволило достичь более сбалансированного вклада каждого токена в кросс-модальный анализ, улучшив устойчивость моделей к пространственным изменениям. Было также показано, что BaPA повышает производительность на процессе fine-tuning, улучшая результаты на различных многомодальных задачах. #### Значимость Результаты имеют большое значение для области многомодального моделирования. Благодаря BaPA, LVLMs становятся устойчивее к пространственным изменениям, что позволяет использовать их в приложениях, где важно понимание содержания независимо от места расположения объектов. Это включает такие области, как реалистичное визуальное понимание, синтез видеотекста и вопрос-ответ в сценариях, где изображения и текст имеют сильное пространственное содержание. В будущем

Abstract

Large Vision-Language Models (LVLMs) have achieved remarkable success across a wide range of multimodal tasks, yet their robustness to spatial variations remains insufficiently understood. In this work, we present a systematic study of the spatial bias of LVLMs, focusing on how models respond when identical key visual information is placed at different locations within an image. Through a carefully designed probing dataset, we demonstrate that current LVLMs often produce inconsistent outputs under such spatial shifts, revealing a fundamental limitation in their spatial-semantic understanding. Further analysis shows that this phenomenon originates not from the vision encoder, which reliably perceives and interprets visual content across positions, but from the unbalanced design of position embeddings in the language model component. In particular, the widely adopted position embedding strategies, such as RoPE, introduce imbalance during cross-modal interaction, leading image tokens at different positions to exert unequal influence on semantic understanding. To mitigate this issue, we introduce Balanced Position Assignment (BaPA), a simple yet effective mechanism that assigns identical position embeddings to all image tokens, promoting a more balanced integration of visual information. Extensive experiments show that BaPA enhances the spatial robustness of LVLMs without retraining and further boosts their performance across diverse multimodal benchmarks when combined with lightweight fine-tuning. Further analysis of information flow reveals that BaPA yields balanced attention, enabling more holistic visual understanding.

Ссылки и действия