Scene-Aware Vectorized Memory Multi-Agent Framework with Cross-Modal Differentiated Quantization VLMs for Visually Impaired Assistance
2508.18177v1
cs.CV, cs.LG, cs.MA
2025-08-27
Авторы:
Xiangxiang Wang, Xuanyu Wang, YiJia Luo, Yongbin Yu, Manping Fan, Jingtao Zhang, Liyong Ren
Резюме на русском
## Контекст
В последние годы становится все важнее развивать технологии, которые могут помогать людям с ограниченными возможностями. Одним из таких направлений является создание систем, которые могут помогать людям с ограниченным зрением. Эти системы должны обеспечивать реальной помощи в решении каждыйдневных задач, таких как распознавание объектов, чтение текста и навигация в окружающем пространстве. Однако существуют серьезные технические и экономические вызовы, связанные с созданием таких систем, в частности, высокими требованиями к памяти и вычислительным ресурсам. Этот уникальный контекст побудил авторов разработать новую модель, которая не только эффективна с точки зрения памяти, но и может обеспечивать реальное временное помощью людям с ограниченным зрением.
## Метод
Так называемая **Scene-Aware Vectorized Memory Multi-Agent Framework** является объединением нескольких инновационных технологий. Во-первых, она включает в себя **cross-modal differentiated quantization framework**, который способен эффективно уменьшить объем памяти, необходимого для хранения модели, без ущерба к ее качеству. Во-вторых, архитектура **scene-aware vectorized memory** позволяет многоагентной системе классифицировать сцены, хранить векторные представления в памяти и взаимодействовать многомодально. Эта система включает в себя рабочий процесс связанных с **perception-memory-reasoning**, который позволяет модели не только производить анализ окружающей среды в реальном времени, но и использовать исторические данные для супервазии и расширения видимого пространства.
## Результаты
В ходе экспериментов был продемонстрирован то, что модель с поддержкой **quantization**, уменьшившихся до 16GB, по-прежнему сохраняет высокую точность работы. На примере MMBench, модель с 19 миллиардами параметров демонстрирует лишь небольшой ущерб в производительности (2.05%), сохраняя высокий уровень точности на задаче OCR-VQA (63.7%, в сравнении с 64.9% для более больших моделей). Благодаря применению многоагентной системы, модель обеспечивает быстрый ответ (от 2.83 до 3.52 секунд) для сцены, при этом выполняя процесс свертки в реальном времени. Это означает, что модель не только эффективна, но и может обеспечить реальное временное потребность в ряде приложений для помощи людям с ограниченным зрением.
## Значимость
Система может применяться в различных сценариях, включая помощь в ориентировании по окружающей среде, распознавание текстов и предоставление краткого обзора сцен. Особенно важно, что модель эффективна в плане памяти и вычислительных ресурсов, что делает её привлекательной для реализации в реальном времени. Данная технология имеет
Abstract
This study proposes the dual technological innovation framework, including a
cross-modal differ entiated quantization framework for vision-language models
(VLMs) and a scene-aware vectorized
memory multi-agent system for visually impaired assistance. The modular
framework was developed
implementing differentiated processing strategies, effectively reducing
memory requirements from
38GB to 16GB while maintaining model performance. The multi-agent
architecture combines
scene classification, vectorized memory, and multimodal interaction, enabling
persistent storage
and efficient retrieval of scene memories. Through
perception-memory-reasoning workflows, the
system provides environmental information beyond the current view using
historical memories.
Experiments show the quantized 19B-parameter model only experiences a 2.05%
performance drop
on MMBench and maintains 63.7 accuracy on OCR-VQA (original: 64.9),
outperforming smaller
models with equivalent memory requirements like the Molmo-7B series. The
system maintains
response latency between 2.83-3.52 seconds from scene analysis to initial
speech output, substantially
faster than non-streaming methods. This research advances computational
efficiency and assistive
technology, offering visually impaired users comprehensive real-time
assistance in scene perception,
text recognition, and navigation.
Ссылки и действия
Дополнительные ресурсы: