Scene-Aware Vectorized Memory Multi-Agent Framework with Cross-Modal Differentiated Quantization VLMs for Visually Impaired Assistance

2508.18177v1 cs.CV, cs.LG, cs.MA 2025-08-27
Авторы:

Xiangxiang Wang, Xuanyu Wang, YiJia Luo, Yongbin Yu, Manping Fan, Jingtao Zhang, Liyong Ren

Резюме на русском

## Контекст В последние годы становится все важнее развивать технологии, которые могут помогать людям с ограниченными возможностями. Одним из таких направлений является создание систем, которые могут помогать людям с ограниченным зрением. Эти системы должны обеспечивать реальной помощи в решении каждыйдневных задач, таких как распознавание объектов, чтение текста и навигация в окружающем пространстве. Однако существуют серьезные технические и экономические вызовы, связанные с созданием таких систем, в частности, высокими требованиями к памяти и вычислительным ресурсам. Этот уникальный контекст побудил авторов разработать новую модель, которая не только эффективна с точки зрения памяти, но и может обеспечивать реальное временное помощью людям с ограниченным зрением. ## Метод Так называемая **Scene-Aware Vectorized Memory Multi-Agent Framework** является объединением нескольких инновационных технологий. Во-первых, она включает в себя **cross-modal differentiated quantization framework**, который способен эффективно уменьшить объем памяти, необходимого для хранения модели, без ущерба к ее качеству. Во-вторых, архитектура **scene-aware vectorized memory** позволяет многоагентной системе классифицировать сцены, хранить векторные представления в памяти и взаимодействовать многомодально. Эта система включает в себя рабочий процесс связанных с **perception-memory-reasoning**, который позволяет модели не только производить анализ окружающей среды в реальном времени, но и использовать исторические данные для супервазии и расширения видимого пространства. ## Результаты В ходе экспериментов был продемонстрирован то, что модель с поддержкой **quantization**, уменьшившихся до 16GB, по-прежнему сохраняет высокую точность работы. На примере MMBench, модель с 19 миллиардами параметров демонстрирует лишь небольшой ущерб в производительности (2.05%), сохраняя высокий уровень точности на задаче OCR-VQA (63.7%, в сравнении с 64.9% для более больших моделей). Благодаря применению многоагентной системы, модель обеспечивает быстрый ответ (от 2.83 до 3.52 секунд) для сцены, при этом выполняя процесс свертки в реальном времени. Это означает, что модель не только эффективна, но и может обеспечить реальное временное потребность в ряде приложений для помощи людям с ограниченным зрением. ## Значимость Система может применяться в различных сценариях, включая помощь в ориентировании по окружающей среде, распознавание текстов и предоставление краткого обзора сцен. Особенно важно, что модель эффективна в плане памяти и вычислительных ресурсов, что делает её привлекательной для реализации в реальном времени. Данная технология имеет

Abstract

This study proposes the dual technological innovation framework, including a cross-modal differ entiated quantization framework for vision-language models (VLMs) and a scene-aware vectorized memory multi-agent system for visually impaired assistance. The modular framework was developed implementing differentiated processing strategies, effectively reducing memory requirements from 38GB to 16GB while maintaining model performance. The multi-agent architecture combines scene classification, vectorized memory, and multimodal interaction, enabling persistent storage and efficient retrieval of scene memories. Through perception-memory-reasoning workflows, the system provides environmental information beyond the current view using historical memories. Experiments show the quantized 19B-parameter model only experiences a 2.05% performance drop on MMBench and maintains 63.7 accuracy on OCR-VQA (original: 64.9), outperforming smaller models with equivalent memory requirements like the Molmo-7B series. The system maintains response latency between 2.83-3.52 seconds from scene analysis to initial speech output, substantially faster than non-streaming methods. This research advances computational efficiency and assistive technology, offering visually impaired users comprehensive real-time assistance in scene perception, text recognition, and navigation.

Ссылки и действия