SpotVLM: Cloud-edge Collaborative Real-time VLM based on Context Transfer
2508.12638v1
cs.CV, cs.AI
2025-08-20
Авторы:
Chen Qian, Xinran Yu, Zewen Huang, Danyang Li, Qiang Ma, Fan Dang, Xuan Ding, Guangyong Shang, Zheng Yang
Резюме на русском
#### Контекст
Визуально-языковые модели (Vision-Language Models, VLMs) становятся все более популярными в реальном времени в областях, таких как автономное вождение и робототехника. Они позволяют системам понимать и реагировать на визуальную информацию, контекстуализируя ее через текстовые описания. Однако реализация эффективного взаимодействия между силами вычисления центрального облака (cloud) и мощностями вычислений сети крайнего края (edge) остается сложной задачей. Использование существующих систем, таких как разделенные модели Large Vision-Language Models (LVLMs) или стратегии задачу offloading между LVLMs и Small Vision-Language Models (SVLMs), имеет ограничения. Они не учитывают неоднородность задержек в облаке или потенциал подробных ответов от LVLMs. Мотивацией для нас является разработка нового парадигмального подхода, позволяющего решать эти проблемы, обеспечивая реальному времени интеллектуальную систему, основанную на контекстном передаче.
#### Метод
Мы предлагаем Context Transfer, новую парадигму, которая использует данные от LVLMs в качестве исторического контекста для улучшения реального времени SVLMs. Этот подход позволяет использовать отложенные новые ответы LVLMs для точных рекомендаций системы. Для реализации SpotVLM, мы внедрили два основных модуля: Context Replacement и Visual Focus. Модуль Context Replacement обновляет исторический контекст, используя новый ответ LVLM для более точных ввода. Модуль Visual Focus улучшает гармонию между текстовым контекстом и визуальными данными, обеспечивая согласованность в итоговых выводах.
#### Результаты
Мы проводили эксперименты с SpotVLM на трех реальном времени визуальных задачах, включая обнаружение объектов, текстово-визуальную сопоставление и вопрос-ответ системы, используя четыре разных данных. В результате, мы показали, что SpotVLM не только сокращает задержки, но и повышает точность сравнения с другими существующими системами. Наши результаты подтверждают, что Context Transfer не только повышает эффективность, но и обеспечивает более точный контекст для реального времени VLM-систем.
#### Значимость
Проект SpotVLM может иметь широкие применения в сферах, требующих быстрого и надежного взаимодействия между визуальными и текстовыми данными, таких как робототехника, системы помощи водителям, и круглосуточные системы мониторинга. Наш подход позволяет уменьшить задержки, улучшить точность и обеспечить более прозрачное взаимодействие, которое может быть применено в различных отраслях технологий.
#### Выводы
Мы представили SpotVLM, новую парадигму взаимодействия между LVLMs и SVLMs, которая использует контекст для улучшения реального времени выполнения. Наши эксперименты показали, что SpotVLM не только повышает эффекти
Abstract
Vision-Language Models (VLMs) are increasingly deployed in real-time
applications such as autonomous driving and human-computer interaction, which
demand fast and reliable responses based on accurate perception. To meet these
requirements, existing systems commonly employ cloud-edge collaborative
architectures, such as partitioned Large Vision-Language Models (LVLMs) or task
offloading strategies between Large and Small Vision-Language Models (SVLMs).
However, these methods fail to accommodate cloud latency fluctuations and
overlook the full potential of delayed but accurate LVLM responses. In this
work, we propose a novel cloud-edge collaborative paradigm for VLMs, termed
Context Transfer, which treats the delayed outputs of LVLMs as historical
context to provide real-time guidance for SVLMs inference. Based on this
paradigm, we design SpotVLM, which incorporates both context replacement and
visual focus modules to refine historical textual input and enhance visual
grounding consistency. Extensive experiments on three real-time vision tasks
across four datasets demonstrate the effectiveness of the proposed framework.
The new paradigm lays the groundwork for more effective and latency-aware
collaboration strategies in future VLM systems.
Ссылки и действия
Дополнительные ресурсы: