SIFThinker: Spatially-Aware Image Focus for Visual Reasoning
2508.06259v1
cs.CV, cs.AI, I.2.10
2025-08-12
Авторы:
Zhangquan Chen, Ruihui Zhao, Chuwei Luo, Mingze Sun, Xinlei Yu, Yangyang Kang, Ruqi Huang
Резюме на русском
## Контекст
Существующие multimodal large language models (MLLMs) сталкиваются с значительными ограничениями в решении сложных визуальных задач, таких как спатиальное понимание и тонкая визуальная перцепция. Несмотря на то, что многие методы пытались интегрировать визуальную размышление, они часто не учитывали корректировку внимания с использованием пространственных признаков для тонкой регулировки фокуса на относительно целевых областях в задаче. Мы предлагаем SIFThinker, новая система, которая эмулирует человеческое визуальное восприятие, способная выполнять интеллектуальную корректировку внимания и сосредоточиться на целевых регионах в изображении. Этот подход может существенно улучшить эффективность в решении визуальных задач.
## Метод
SIFThinker использует стратегию "reverse expansion forward inference", чтобы генерировать интеллектуальные цепочки мыслей в форме объединенных изображений и текстов. Метод использует depth-enhanced bounding boxes и естественный язык для создания динамической корректировки внимания. Для тонкого визуального осмысления, SIFThinker использует GRPO-SIF, унифицированный цикл развития и улучшения визуальной навигации в реальном времени. Эта архитектура позволяет модели лучше понимать пространственные взаимоотношения и сосредоточиться на релевантных областях в процессе решения задач.
## Результаты
Наши эксперименты проводились на большой датасет SIF-50K, созданный в рамках нашей работы. Мы сравнили SIFThinker с текущими лидерами в области визуально-текстовых моделей. Результаты демонстрируют существенное превосходство SIFThinker в сложных визуальных задачах, в том числе в спатиальном понимании и тонкой визуальной перцепции. Модель показала значительный прирост в точности решения задач, при этом сохранив гибкость и работу в условиях широкого диапазона визуальных сценариев.
## Значимость
SIFThinker может быть применен в различных приложениях, включая автоматический машинный транслятор, визуальный поиск, искусственный интеллект в реальном времени и даже в сферу медицины, где точное визуальное понимание критично. Особым преимуществом является возможность модели для динамической корректировки внимания и сосредоточения на целевых областях, что позволяет ей выполнять более точные и эффективные распознавания и решения задач.
## Выводы
Мы представили SIFThinker, новую систему, которая применяет спатиально-акцентную корректировку визуального фокуса в системах визуального рассуждения. Наши результаты показали, что SIFThinker превосходит состояние искусства в сложных визуальных задачах. Будущие исследования будут нацелены на улучшение ее производительност
Abstract
Current multimodal large language models (MLLMs) still face significant
challenges in complex visual tasks (e.g., spatial understanding, fine-grained
perception). Prior methods have tried to incorporate visual reasoning, however,
they fail to leverage attention correction with spatial cues to iteratively
refine their focus on prompt-relevant regions. In this paper, we introduce
SIFThinker, a spatially-aware "think-with-images" framework that mimics human
visual perception. Specifically, SIFThinker enables attention correcting and
image region focusing by interleaving depth-enhanced bounding boxes and natural
language. Our contributions are twofold: First, we introduce a
reverse-expansion-forward-inference strategy that facilitates the generation of
interleaved image-text chains of thought for process-level supervision, which
in turn leads to the construction of the SIF-50K dataset. Besides, we propose
GRPO-SIF, a reinforced training paradigm that integrates depth-informed visual
grounding into a unified reasoning pipeline, teaching the model to dynamically
correct and focus on prompt-relevant regions. Extensive experiments demonstrate
that SIFThinker outperforms state-of-the-art methods in spatial understanding
and fine-grained visual perception, while maintaining strong general
capabilities, highlighting the effectiveness of our method.
Ссылки и действия
Дополнительные ресурсы: