Scale, Don't Fine-tune: Guiding Multimodal LLMs for Efficient Visual Place Recognition at Test-Time
2509.02129v1
cs.LG, cs.CV
2025-09-05
Авторы:
Jintao Cheng, Weibin Li, Jiehao Luo, Xiaoyu Tang, Zhijian He, Jin Wu, Yao Zou, Wei Zhang
Резюме на русском
#### Контекст
Visual Place Recognition (VPR) — это ключевая задача в области робототехники и визуального периции, нацеленная на точное определение местоположения на основе визуальных образов. Она нашла применение в различных сферах, включая локализацию и навигацию в интеллектуальных транспортных системах, видеосервисы и многое другое. Однако существующие подходы сталкиваются с рядом проблем, включая высокую сложность вычислений, ограниченную трансферируемость моделей и неэффективность в работе с переменными средами. Эти ограничения становятся критичными при работе с Vision Foundation Models (VFMs) и Multimodal Large Language Models (MLLMs), которые, несмотря на свои преимущества в семантическом понимании, не всегда справляются с этими задачами. Это приводит к необходимости разработки эффективных, гибких и стоимостно-эффективных решений.
#### Метод
Мы предлагаем новую методологию, основанную на Test-Time Scaling (TTS), которая использует способности MLLMs к визуально-языковому выражению. Наш подход основывается на специально спроектированных пробуждающихся управляемых процессах, которые эффективно используют пространственно-временную архитектуру. Мы используем структурированные приглашения (structured prompts), которые генерируют выходные данные в формате JSON, контролирующие длину и точность результатов. Благодаря Uncertainty-Aware Self-Consistency (UASC), наша система может адаптироваться в реальном времени, не требуя дополнительных тренировочных процессов. В результате мы достигаем высокой гибкости и эффективности, не требуя переобучения и поддерживая высокую производительность в различных условиях.
#### Результаты
Мы проводили ряд экспериментов, используя различные данные, включая стандартные наборы данных для VPR. Выполнено сравнение нашего подхода с имеющимися методами, включая VFMs и MLLMs, которые требуют традиционных стадий обучения и оценки. Наши результаты показали, что TTS-фреймворк с UASC обеспечивает значительные улучшения в кросс-доменной производительности, показывая до 210-кратного увеличение эффективности вычислений. Это достигается благодаря исключению дополнительных затрат на обучение и использованию тестируемых моделей напрямую в режиме онлайн.
#### Значимость
Наш подход имеет широкие области применения, включая видеоаналитику, локализацию и системы автоматизированного управления. Он предоставляет значительные преимущества по сравнению с традиционными методами, включая высокую стоимость, более высокую точность и значительное уменьшение вычислительных затрат. Этот подход может быть применен в различных сценариях, включая роботов-пилотов, мобильные системы и видео
Abstract
Visual Place Recognition (VPR) has evolved from handcrafted descriptors to
deep learning approaches, yet significant challenges remain. Current
approaches, including Vision Foundation Models (VFMs) and Multimodal Large
Language Models (MLLMs), enhance semantic understanding but suffer from high
computational overhead and limited cross-domain transferability when
fine-tuned. To address these limitations, we propose a novel zero-shot
framework employing Test-Time Scaling (TTS) that leverages MLLMs'
vision-language alignment capabilities through Guidance-based methods for
direct similarity scoring. Our approach eliminates two-stage processing by
employing structured prompts that generate length-controllable JSON outputs.
The TTS framework with Uncertainty-Aware Self-Consistency (UASC) enables
real-time adaptation without additional training costs, achieving superior
generalization across diverse environments. Experimental results demonstrate
significant improvements in cross-domain VPR performance with up to 210$\times$
computational efficiency gains.
Ссылки и действия
Дополнительные ресурсы: