📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Leave No Observation Behind: Real-time Correction for VLA Action Chunks

2025-10-01

Авторы:

Kohei Sendai, Maxime Alvarez, Tatsuya Matsushima, Yutaka Matsuo, Yusuke Iwasawa

#### Контекст В многих приложениях, таких как робототехника, автоматизированные системы и искусственный интеллект, важно обеспечивать высокую эффективность и реактивность. Одним из ключевых подходов является использование Vision-Language-Action (VLA) моделей, которые позволяют объединять визуальные сигналы, языковые команды и действия в систематические решения. Однако существуют проблемы, связанные с высоким задержанием при инференсе и проблемами с корректным принятием решений на больших горизонтах времени. Это приводит к потере точности и реактивности в реальном времени. Данная статья фокусируется на улучшении реакции VLA-моделей в ситуациях, где задержка инференса и длинные горизонты времени становятся критичными. Мы предлагаем Asynchronous Action Chunk Correction (A2C2) — легковесное решение, которое добавляет временно-активные коррекции к базовым действиям модели. #### Метод Методология A2C2 основывается на асинхронном подходе к коррекции action chunks в реальном времени. Решение состоит в том, чтобы каждый шаг управления добавлял в базовую модель VLA дополнительный корректирующий модуль. Этот модуль принимает в качестве входных данных последние наблюдения, базовое действие, которое было получено от VLA-модели, позиционную особенность, которая определяет индекс действия внутри чанка, а также некоторые другие фичи из базовой политики. Ответ модуля — это зависимость времени, которая исправляет базовый вывод без необходимости переучивания всей системы. Мы используем свёрточные нейронные сети для выполнения коррекции, чтобы обеспечить высокую скорость и эффективность. #### Результаты Мы проверили нашу модель на двух наборах данных: Kinetix Dynamic Task Suite (12 задач) и LIBERO Spatial. Проводили эксперименты, меняя уровни задержки инференса и горизонт выполнения. Результаты показали, что A2C2 улучшает успешность задач на +23% в случае увеличения задержки и на +7% при больших горизонтах выполнения, в сравнении с Real-Time Chunking (RTC). Добавленная коррекция повышает реактивность и уменьшает ошибки в реальном времени, не требуя полного переучивания модели. Анализ производительности показал, что дополнительные ресурсы, требуемые для A2C2, незначительны в сравнении с большими VLA-моделями. #### Значимость Предложенный подход может быть применен в ситуациях, где необходима высокая реактивность в реальном времени, такие как роботизированные производства, автоматизированные системы и системы поддержки решений. Он обеспечивает улучшение производительности без требования к переучиванию базовых моделей. Мы видим возможность дальнейшего использования A2C2 в системах, где задержка инференса является к

Annotation:

To improve efficiency and temporal coherence, Vision-Language-Action (VLA) models often predict action chunks; however, this action chunking harms reactivity under inference delay and long horizons. We introduce Asynchronous Action Chunk Correction (A2C2), which is a lightweight real-time chunk correction head that runs every control step and adds a time-aware correction to any off-the-shelf VLA's action chunk. The module combines the latest observation, the predicted action from VLA (base actio...

ID: 2509.23224v1 cs.RO, cs.AI, cs.CV, cs.SY, eess.SY

arXiv PDF

📄 Autonomous Navigation of Cloud-Controlled Quadcopters in Confined Spaces Using Multi-Modal Perception and LLM-Driven High Semantic Reasoning

2025-08-13

Авторы:

Shoaib Ahmmad, Zubayer Ahmed Aditto, Md Mehrab Hossain, Noushin Yeasmin, Shorower Hossain

#### Контекст Автоматизированная навигация внештатных дронов в закрытых пространствах представляет собой важную область исследований, особенно в условиях отсутствия GPS. Такие ситуации часто встречаются в защищенных зонах, промышленных помещениях и зданиях. Существующие решения часто сталкиваются с ограничениями по скорости обработки данных, точности восприятия окружения и убыточностью надёжности. Эти проблемы могут привести к негативным последствиям, таким как коллизии, неточности в маршрутизации и нехватка своевременных реакций. Это поощряет развитие систем, обеспечивающих высокую точность, быструю реакцию и уменьшение зависимости от навигационных систем, недоступных в закрытых пространствах. #### Метод Предложенная система основывается на сложном подходе, объединяющем несколько технологий для эффективного восприятия окружения и принятия решений. Основной архитектурой является мультимодальное восприятие, включающее в себя глубокое обучение для детектирования объектов с использованием YOLOv11, оценку диапазона и глубины с помощью Depth Anything V2, а также информацию об ориентации и движении, полученной через PCB с Time-of-Flight (ToF) сенсорами и IMU. Для обеспечения высокой надёжности и минимальной задержки в действиях используется многопоточная архитектура. Для повышения безопасности во время навигации в ограниченных пространствах, встроена виртуальная безопасная рамка, которая дополняется вычислительными моделями с помощью 3D bounding box estimation и Kalman filtering. Интеграция с облачными вычислениями позволяет выполнять тяжёлые вычисления на удалённых серверах, что повышает эффективность и повышает масштабируемость. #### Результаты Проведенные эксперименты в закрытом лабораторном условии показали высокую эффективность системы. Она достигла среднего значения значимости YOLOv11 для объектного распознавания (mAP50) в 0.6. Оценка диапазона (Depth Anything V2) показала ошибку средней абсолютной величины (MAE) в 7.2 см. В течение 42 циклов навигации, продолжительностью около 11 минут, произошло лишь 16 безобидных нарушений виртуальной безопасной рамки. Это свидетельствует о высокой надёжности системы. Замеры завершаются низкой задержкой обработки всей системы — менее 1 секунды с момента возникновения входных данных до принятия решения, что является ключевым фактором для успешной навигации в ограниченных пространствах. #### Значимость Система предлагает уникальные возможности для применения в различных областях, таких как промышленность, мониторинг инфраструктуры, поисковые операции и транспортная экспедици

Annotation:

This paper introduces an advanced AI-driven perception system for autonomous quadcopter navigation in GPS-denied indoor environments. The proposed framework leverages cloud computing to offload computationally intensive tasks and incorporates a custom-designed printed circuit board (PCB) for efficient sensor data acquisition, enabling robust navigation in confined spaces. The system integrates YOLOv11 for object detection, Depth Anything V2 for monocular depth estimation, a PCB equipped with Tim...

ID: 2508.07885v1 cs.RO, cs.AI, cs.CV, cs.SY, eess.SY

arXiv PDF