SpotVLM: Cloud-edge Collaborative Real-time VLM based on Context Transfer

2508.12638v1 cs.CV, cs.AI 2025-08-20

Авторы:

Chen Qian, Xinran Yu, Zewen Huang, Danyang Li, Qiang Ma, Fan Dang, Xuan Ding, Guangyong Shang, Zheng Yang

Резюме на русском

#### Контекст Визуально-языковые модели (Vision-Language Models, VLMs) становятся все более популярными в реальном времени в областях, таких как автономное вождение и робототехника. Они позволяют системам понимать и реагировать на визуальную информацию, контекстуализируя ее через текстовые описания. Однако реализация эффективного взаимодействия между силами вычисления центрального облака (cloud) и мощностями вычислений сети крайнего края (edge) остается сложной задачей. Использование существующих систем, таких как разделенные модели Large Vision-Language Models (LVLMs) или стратегии задачу offloading между LVLMs и Small Vision-Language Models (SVLMs), имеет ограничения. Они не учитывают неоднородность задержек в облаке или потенциал подробных ответов от LVLMs. Мотивацией для нас является разработка нового парадигмального подхода, позволяющего решать эти проблемы, обеспечивая реальному времени интеллектуальную систему, основанную на контекстном передаче. #### Метод Мы предлагаем Context Transfer, новую парадигму, которая использует данные от LVLMs в качестве исторического контекста для улучшения реального времени SVLMs. Этот подход позволяет использовать отложенные новые ответы LVLMs для точных рекомендаций системы. Для реализации SpotVLM, мы внедрили два основных модуля: Context Replacement и Visual Focus. Модуль Context Replacement обновляет исторический контекст, используя новый ответ LVLM для более точных ввода. Модуль Visual Focus улучшает гармонию между текстовым контекстом и визуальными данными, обеспечивая согласованность в итоговых выводах. #### Результаты Мы проводили эксперименты с SpotVLM на трех реальном времени визуальных задачах, включая обнаружение объектов, текстово-визуальную сопоставление и вопрос-ответ системы, используя четыре разных данных. В результате, мы показали, что SpotVLM не только сокращает задержки, но и повышает точность сравнения с другими существующими системами. Наши результаты подтверждают, что Context Transfer не только повышает эффективность, но и обеспечивает более точный контекст для реального времени VLM-систем. #### Значимость Проект SpotVLM может иметь широкие применения в сферах, требующих быстрого и надежного взаимодействия между визуальными и текстовыми данными, таких как робототехника, системы помощи водителям, и круглосуточные системы мониторинга. Наш подход позволяет уменьшить задержки, улучшить точность и обеспечить более прозрачное взаимодействие, которое может быть применено в различных отраслях технологий. #### Выводы Мы представили SpotVLM, новую парадигму взаимодействия между LVLMs и SVLMs, которая использует контекст для улучшения реального времени выполнения. Наши эксперименты показали, что SpotVLM не только повышает эффекти

Abstract

Vision-Language Models (VLMs) are increasingly deployed in real-time applications such as autonomous driving and human-computer interaction, which demand fast and reliable responses based on accurate perception. To meet these requirements, existing systems commonly employ cloud-edge collaborative architectures, such as partitioned Large Vision-Language Models (LVLMs) or task offloading strategies between Large and Small Vision-Language Models (SVLMs). However, these methods fail to accommodate cloud latency fluctuations and overlook the full potential of delayed but accurate LVLM responses. In this work, we propose a novel cloud-edge collaborative paradigm for VLMs, termed Context Transfer, which treats the delayed outputs of LVLMs as historical context to provide real-time guidance for SVLMs inference. Based on this paradigm, we design SpotVLM, which incorporates both context replacement and visual focus modules to refine historical textual input and enhance visual grounding consistency. Extensive experiments on three real-time vision tasks across four datasets demonstrate the effectiveness of the proposed framework. The new paradigm lays the groundwork for more effective and latency-aware collaboration strategies in future VLM systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SpotVLM: Cloud-edge Collaborative Real-time VLM based on Context Transfer

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация