Residual Vector Quantization For Communication-Efficient Multi-Agent Perception

2509.21464v1 cs.CV, cs.RO 2025-09-30

Авторы:

Dereje Shenkut, B. V. K Vijaya Kumar

Резюме на русском

## Контекст Современное развитие автоматизированных систем, таких как автомобили с возможностью управления без вмешательства человека, роботы-помощники и дроны, требует высокоэффективных методов сенсорного восприятия. Одним из ключевых аспектов является **многоагентное совместное восприятие (CP)**, при котором несколько агентов (например, автомобили, дроны или роботы) делятся своими данными для повышения точности и разрешения сцены. Однако эта методика сталкивается с ограничениями, связанными с **ресурсом передачи данных**. Большие объемы данных, которые должны быть переданы для формирования общего представления о среде, требуют невыносимо большой пропускной способности сети. Таким образом, целью данного исследования является разработка метода, который бы сократил объем передаваемых данных, сохранив высокую точность восприятия. ## Метод Метод, предложенный в работе, называется **ReVQom**. Это **конечно-то метод**, основывающийся на **кодировании признаков с помощью векторного кодирования с резидуальными векторами (RVQ)**. Он состоит из двух основных элементов: 1. **Бутаннек-сеть** (bottleneck network), которая уменьшает размерность признаков, 2. **Кодирование резидуальных векторов (RVQ)**, которое позволяет компрессировать данные, сохранив ключевые свойства признаков. ReVQom работает **полностью в автоматическом режиме** и позволяет **кодировать только конечные индексы резидуальных векторов**, не передавая весь вектор. Это достигается благодаря тому, что кодирование резидуальных векторов позволяет уменьшить размер передаваемого сообщения до минимума, при этом сохраняя максимально возможную точность. ## Результаты Результаты испытаний были получены с использованием датасета **DAIR-V2X**, который представляет собой реальные сцены, собранные в условиях многоагентного взаимодействия. Результаты показали, что **ReVQom обеспечивает значительное сжатие данных** с 8192 бит на пиксель (в случае несжатых данных) до **6-30 бит на пиксель** с помощью RVQ. Это дает возможность **273x до 1365x сжатия**, при этом **не приводит к существенному ухудшению точности**. Даже при наименьших значениях сжатия (например, **6 бит на пиксель**), ReVQom позволяет производить **эффективное совместное восприятие** с минимальными потерями точности. Таким образом, **ReVQom** достигает **эффективного баланса между сжатием и точностью**, что является ключевым для практического применения в реальных сетях, таких как V2X (Vehicle-to-Everything). ## Значимость **ReVQom** открывает новые возможности для **применения многоагентного восприятия** в реальных усло

Abstract

Multi-agent collaborative perception (CP) improves scene understanding by sharing information across connected agents such as autonomous vehicles, unmanned aerial vehicles, and robots. Communication bandwidth, however, constrains scalability. We present ReVQom, a learned feature codec that preserves spatial identity while compressing intermediate features. ReVQom is an end-to-end method that compresses feature dimensions via a simple bottleneck network followed by multi-stage residual vector quantization (RVQ). This allows only per-pixel code indices to be transmitted, reducing payloads from 8192 bits per pixel (bpp) of uncompressed 32-bit float features to 6-30 bpp per agent with minimal accuracy loss. On DAIR-V2X real-world CP dataset, ReVQom achieves 273x compression at 30 bpp to 1365x compression at 6 bpp. At 18 bpp (455x), ReVQom matches or outperforms raw-feature CP, and at 6-12 bpp it enables ultra-low-bandwidth operation with graceful degradation. ReVQom allows efficient and accurate multi-agent collaborative perception with a step toward practical V2X deployment.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Residual Vector Quantization For Communication-Efficient Multi-Agent Perception

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация