ReasoningTrack: Chain-of-Thought Reasoning for Long-term Vision-Language Tracking

2508.05221v1 cs.CV, cs.AI, cs.LG 2025-08-09

Авторы:

Xiao Wang, Liye Jin, Xufeng Lou, Shiao Wang, Lan Chen, Bo Jiang, Zhipeng Zhang

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуально-языковое отслеживание представляет собой быстроразвивающееся направление в компьютерном зрении, которое объединяет визуальную информацию из видеопоследовательностей с текстовыми описаниями целевого объекта. Традиционные методы визуального отслеживания сталкиваются с фундаментальной проблемой: они полагаются исключительно на визуальные признаки, что делает их негибкими и подверженными ошибкам при изменении внешнего вида объекта, появлении препятствий или в условиях сложных сцен. Текстовое описание объекта, содержащее семантическую информацию о его характеристиках, может существенно повысить надежность и точность отслеживания в долгосрочной перспективе. Существующие подходы к визуально-языковому отслеживанию страдают от нескольких ключевых ограничений. Первые работы просто объединяли фиксированные языковые описания с визуальными признаками без адаптивной способности реагировать на изменения внешнего вида объекта. Более современные методы используют механизмы внимания для модификации языковых признаков, но они не способны к глубокому пониманию контекста и семантически осмысленному обновлению описаний. Недавние исследования попытались применить генеративные модели для динамического обновления текстовых описаний, однако эти методы оказались "черными ящиками" - они не предоставляют интерпретируемую информацию о процессе принятия решений и не полностью используют потенциал больших языковых моделей. Критическая проблема заключается в отсутствии крупномасштабных долгосрочных бенчмарков для визуально-языкового отслеживания, что затрудняет объективную оценку методов и сравнение различных подходов. Долгосрочное отслеживание особенно сложно, так как требует устойчивости к полным исчезновениям объекта из кадра, его повторному появлению после длительного отсутствия и устойчивости к значительным изменениям внешнего вида. Эти вызовы требуют разработки новых методов, способных к рассуждениям и адаптивному обновлению текстовых описаний на основе накопленной информации о треке. ## ПРЕДЛОЖЕННЫЙ МЕТОД ReasoningTrack представляет собой инновационную рамку для визуально-языкового отслеживания, которая использует pre-trained мультимодальную модель Qwen2.5-VL в качестве основы. Ключевой концепцией является внедрение цепочки рассуждений (Chain-of-Thought) в процесс генерации и обновления текстовых описаний целевого объекта. В отличие от предыдущих работ, которые использовали статические или поверхностно обновляемые языковые признаки, ReasoningTrack динамически генерирует обоснованные текстовые описания, которые адаптируются к изменениям внешнего вида объекта на протяжении всей видеопоследовательности. Архитектура системы состоит из трех основных компонентов: модуля рассуждений на основе языковой модели, унифицированной трекинговой backbone-сети и предсказывающей головки. Модуль рассуждений использует Qwen2.5-VL для генерации последовательных рассуждений о текущем состоянии объекта на основе исторической информации и текущего визуального наблюдения. Эти рассуждения представлены в виде естественного языка и включают анализ изменений внешнего вида, потенциальных причин сбоев в отслеживании и обновленное описание объекта. Генерация текста оптимизируется через два этапа: сначала используется Supervised Fine-Tuning (SFT) для обучения базовой способности к рассуждениям, затем применяется алгоритм GRPO (Group Relative Policy Optimization) из области reinforcement learning для дальнейшего улучшения качества рассуждений и их полезности для задачи отслеживания. Обновленные языковые описания затем эмбедируются и объединяются с визуальными признаками в унифицированной backbone-сети, которая использует механизмы перекрестного внимания для эффективного взаимодействия между модальностями. Конечная трекинговая голова генерирует предсказания границ объекта на основе объединенных мультимодальных признаков. Уникальность подхода заключается в том, что языковые рассуждения не только предоставляют семантическую информацию, но и служат формой внешней памяти, сохраняя контекстуальную информацию о треке на протяжении времени. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для всесторонней оценки пред

Abstract

Vision-language tracking has received increasing attention in recent years, as textual information can effectively address the inflexibility and inaccuracy associated with specifying the target object to be tracked. Existing works either directly fuse the fixed language with vision features or simply modify using attention, however, their performance is still limited. Recently, some researchers have explored using text generation to adapt to the variations in the target during tracking, however, these works fail to provide insights into the model's reasoning process and do not fully leverage the advantages of large models, which further limits their overall performance. To address the aforementioned issues, this paper proposes a novel reasoning-based vision-language tracking framework, named ReasoningTrack, based on a pre-trained vision-language model Qwen2.5-VL. Both SFT (Supervised Fine-Tuning) and reinforcement learning GRPO are used for the optimization of reasoning and language generation. We embed the updated language descriptions and feed them into a unified tracking backbone network together with vision features. Then, we adopt a tracking head to predict the specific location of the target object. In addition, we propose a large-scale long-term vision-language tracking benchmark dataset, termed TNLLT, which contains 200 video sequences. 20 baseline visual trackers are re-trained and evaluated on this dataset, which builds a solid foundation for the vision-language visual tracking task. Extensive experiments on multiple vision-language tracking benchmark datasets fully validated the effectiveness of our proposed reasoning-based natural language generation strategy. The source code of this paper will be released on https://github.com/Event-AHU/Open_VLTrack

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ReasoningTrack: Chain-of-Thought Reasoning for Long-term Vision-Language Tracking

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация