Scale, Don't Fine-tune: Guiding Multimodal LLMs for Efficient Visual Place Recognition at Test-Time

2509.02129v1 cs.LG, cs.CV 2025-09-05

Авторы:

Jintao Cheng, Weibin Li, Jiehao Luo, Xiaoyu Tang, Zhijian He, Jin Wu, Yao Zou, Wei Zhang

Резюме на русском

#### Контекст Visual Place Recognition (VPR) — это ключевая задача в области робототехники и визуального периции, нацеленная на точное определение местоположения на основе визуальных образов. Она нашла применение в различных сферах, включая локализацию и навигацию в интеллектуальных транспортных системах, видеосервисы и многое другое. Однако существующие подходы сталкиваются с рядом проблем, включая высокую сложность вычислений, ограниченную трансферируемость моделей и неэффективность в работе с переменными средами. Эти ограничения становятся критичными при работе с Vision Foundation Models (VFMs) и Multimodal Large Language Models (MLLMs), которые, несмотря на свои преимущества в семантическом понимании, не всегда справляются с этими задачами. Это приводит к необходимости разработки эффективных, гибких и стоимостно-эффективных решений. #### Метод Мы предлагаем новую методологию, основанную на Test-Time Scaling (TTS), которая использует способности MLLMs к визуально-языковому выражению. Наш подход основывается на специально спроектированных пробуждающихся управляемых процессах, которые эффективно используют пространственно-временную архитектуру. Мы используем структурированные приглашения (structured prompts), которые генерируют выходные данные в формате JSON, контролирующие длину и точность результатов. Благодаря Uncertainty-Aware Self-Consistency (UASC), наша система может адаптироваться в реальном времени, не требуя дополнительных тренировочных процессов. В результате мы достигаем высокой гибкости и эффективности, не требуя переобучения и поддерживая высокую производительность в различных условиях. #### Результаты Мы проводили ряд экспериментов, используя различные данные, включая стандартные наборы данных для VPR. Выполнено сравнение нашего подхода с имеющимися методами, включая VFMs и MLLMs, которые требуют традиционных стадий обучения и оценки. Наши результаты показали, что TTS-фреймворк с UASC обеспечивает значительные улучшения в кросс-доменной производительности, показывая до 210-кратного увеличение эффективности вычислений. Это достигается благодаря исключению дополнительных затрат на обучение и использованию тестируемых моделей напрямую в режиме онлайн. #### Значимость Наш подход имеет широкие области применения, включая видеоаналитику, локализацию и системы автоматизированного управления. Он предоставляет значительные преимущества по сравнению с традиционными методами, включая высокую стоимость, более высокую точность и значительное уменьшение вычислительных затрат. Этот подход может быть применен в различных сценариях, включая роботов-пилотов, мобильные системы и видео

Abstract

Visual Place Recognition (VPR) has evolved from handcrafted descriptors to deep learning approaches, yet significant challenges remain. Current approaches, including Vision Foundation Models (VFMs) and Multimodal Large Language Models (MLLMs), enhance semantic understanding but suffer from high computational overhead and limited cross-domain transferability when fine-tuned. To address these limitations, we propose a novel zero-shot framework employing Test-Time Scaling (TTS) that leverages MLLMs' vision-language alignment capabilities through Guidance-based methods for direct similarity scoring. Our approach eliminates two-stage processing by employing structured prompts that generate length-controllable JSON outputs. The TTS framework with Uncertainty-Aware Self-Consistency (UASC) enables real-time adaptation without additional training costs, achieving superior generalization across diverse environments. Experimental results demonstrate significant improvements in cross-domain VPR performance with up to 210$\times$ computational efficiency gains.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Scale, Don't Fine-tune: Guiding Multimodal LLMs for Efficient Visual Place Recognition at Test-Time

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Studying Various Activation Functions and Non-IID Data for Machine Learning Mode...

Feature Engineering vs. Deep Learning for Automated Coin Grading: A Comparative ...

Rethinking Decoupled Knowledge Distillation: A Predictive Distribution Perspecti...

Value Gradient Guidance for Flow Matching Alignment

Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe

Навигация