SIFThinker: Spatially-Aware Image Focus for Visual Reasoning

2508.06259v1 cs.CV, cs.AI, I.2.10 2025-08-12
Авторы:

Zhangquan Chen, Ruihui Zhao, Chuwei Luo, Mingze Sun, Xinlei Yu, Yangyang Kang, Ruqi Huang

Резюме на русском

## Контекст Существующие multimodal large language models (MLLMs) сталкиваются с значительными ограничениями в решении сложных визуальных задач, таких как спатиальное понимание и тонкая визуальная перцепция. Несмотря на то, что многие методы пытались интегрировать визуальную размышление, они часто не учитывали корректировку внимания с использованием пространственных признаков для тонкой регулировки фокуса на относительно целевых областях в задаче. Мы предлагаем SIFThinker, новая система, которая эмулирует человеческое визуальное восприятие, способная выполнять интеллектуальную корректировку внимания и сосредоточиться на целевых регионах в изображении. Этот подход может существенно улучшить эффективность в решении визуальных задач. ## Метод SIFThinker использует стратегию "reverse expansion forward inference", чтобы генерировать интеллектуальные цепочки мыслей в форме объединенных изображений и текстов. Метод использует depth-enhanced bounding boxes и естественный язык для создания динамической корректировки внимания. Для тонкого визуального осмысления, SIFThinker использует GRPO-SIF, унифицированный цикл развития и улучшения визуальной навигации в реальном времени. Эта архитектура позволяет модели лучше понимать пространственные взаимоотношения и сосредоточиться на релевантных областях в процессе решения задач. ## Результаты Наши эксперименты проводились на большой датасет SIF-50K, созданный в рамках нашей работы. Мы сравнили SIFThinker с текущими лидерами в области визуально-текстовых моделей. Результаты демонстрируют существенное превосходство SIFThinker в сложных визуальных задачах, в том числе в спатиальном понимании и тонкой визуальной перцепции. Модель показала значительный прирост в точности решения задач, при этом сохранив гибкость и работу в условиях широкого диапазона визуальных сценариев. ## Значимость SIFThinker может быть применен в различных приложениях, включая автоматический машинный транслятор, визуальный поиск, искусственный интеллект в реальном времени и даже в сферу медицины, где точное визуальное понимание критично. Особым преимуществом является возможность модели для динамической корректировки внимания и сосредоточения на целевых областях, что позволяет ей выполнять более точные и эффективные распознавания и решения задач. ## Выводы Мы представили SIFThinker, новую систему, которая применяет спатиально-акцентную корректировку визуального фокуса в системах визуального рассуждения. Наши результаты показали, что SIFThinker превосходит состояние искусства в сложных визуальных задачах. Будущие исследования будут нацелены на улучшение ее производительност

Abstract

Current multimodal large language models (MLLMs) still face significant challenges in complex visual tasks (e.g., spatial understanding, fine-grained perception). Prior methods have tried to incorporate visual reasoning, however, they fail to leverage attention correction with spatial cues to iteratively refine their focus on prompt-relevant regions. In this paper, we introduce SIFThinker, a spatially-aware "think-with-images" framework that mimics human visual perception. Specifically, SIFThinker enables attention correcting and image region focusing by interleaving depth-enhanced bounding boxes and natural language. Our contributions are twofold: First, we introduce a reverse-expansion-forward-inference strategy that facilitates the generation of interleaved image-text chains of thought for process-level supervision, which in turn leads to the construction of the SIF-50K dataset. Besides, we propose GRPO-SIF, a reinforced training paradigm that integrates depth-informed visual grounding into a unified reasoning pipeline, teaching the model to dynamically correct and focus on prompt-relevant regions. Extensive experiments demonstrate that SIFThinker outperforms state-of-the-art methods in spatial understanding and fine-grained visual perception, while maintaining strong general capabilities, highlighting the effectiveness of our method.

Ссылки и действия

Связанные статьи

VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Un...

#### Контекст В последние годы повышается интерес к многомодальным большим языковым моделям (MLLMs), которые могут обраб...

2025-08-14