📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Kohei Sendai, Maxime Alvarez, Tatsuya Matsushima, Yutaka Matsuo, Yusuke Iwasawa
#### Контекст
В многих приложениях, таких как робототехника, автоматизированные системы и искусственный интеллект, важно обеспечивать высокую эффективность и реактивность. Одним из ключевых подходов является использование Vision-Language-Action (VLA) моделей, которые позволяют объединять визуальные сигналы, языковые команды и действия в систематические решения. Однако существуют проблемы, связанные с высоким задержанием при инференсе и проблемами с корректным принятием решений на больших горизонтах времени. Это приводит к потере точности и реактивности в реальном времени. Данная статья фокусируется на улучшении реакции VLA-моделей в ситуациях, где задержка инференса и длинные горизонты времени становятся критичными. Мы предлагаем Asynchronous Action Chunk Correction (A2C2) — легковесное решение, которое добавляет временно-активные коррекции к базовым действиям модели.
#### Метод
Методология A2C2 основывается на асинхронном подходе к коррекции action chunks в реальном времени. Решение состоит в том, чтобы каждый шаг управления добавлял в базовую модель VLA дополнительный корректирующий модуль. Этот модуль принимает в качестве входных данных последние наблюдения, базовое действие, которое было получено от VLA-модели, позиционную особенность, которая определяет индекс действия внутри чанка, а также некоторые другие фичи из базовой политики. Ответ модуля — это зависимость времени, которая исправляет базовый вывод без необходимости переучивания всей системы. Мы используем свёрточные нейронные сети для выполнения коррекции, чтобы обеспечить высокую скорость и эффективность.
#### Результаты
Мы проверили нашу модель на двух наборах данных: Kinetix Dynamic Task Suite (12 задач) и LIBERO Spatial. Проводили эксперименты, меняя уровни задержки инференса и горизонт выполнения. Результаты показали, что A2C2 улучшает успешность задач на +23% в случае увеличения задержки и на +7% при больших горизонтах выполнения, в сравнении с Real-Time Chunking (RTC). Добавленная коррекция повышает реактивность и уменьшает ошибки в реальном времени, не требуя полного переучивания модели. Анализ производительности показал, что дополнительные ресурсы, требуемые для A2C2, незначительны в сравнении с большими VLA-моделями.
#### Значимость
Предложенный подход может быть применен в ситуациях, где необходима высокая реактивность в реальном времени, такие как роботизированные производства, автоматизированные системы и системы поддержки решений. Он обеспечивает улучшение производительности без требования к переучиванию базовых моделей. Мы видим возможность дальнейшего использования A2C2 в системах, где задержка инференса является к
Annotation:
To improve efficiency and temporal coherence, Vision-Language-Action (VLA)
models often predict action chunks; however, this action chunking harms
reactivity under inference delay and long horizons. We introduce Asynchronous
Action Chunk Correction (A2C2), which is a lightweight real-time chunk
correction head that runs every control step and adds a time-aware correction
to any off-the-shelf VLA's action chunk. The module combines the latest
observation, the predicted action from VLA (base actio...
Авторы:
Shoaib Ahmmad, Zubayer Ahmed Aditto, Md Mehrab Hossain, Noushin Yeasmin, Shorower Hossain
#### Контекст
Автоматизированная навигация внештатных дронов в закрытых пространствах представляет собой важную область исследований, особенно в условиях отсутствия GPS. Такие ситуации часто встречаются в защищенных зонах, промышленных помещениях и зданиях. Существующие решения часто сталкиваются с ограничениями по скорости обработки данных, точности восприятия окружения и убыточностью надёжности. Эти проблемы могут привести к негативным последствиям, таким как коллизии, неточности в маршрутизации и нехватка своевременных реакций. Это поощряет развитие систем, обеспечивающих высокую точность, быструю реакцию и уменьшение зависимости от навигационных систем, недоступных в закрытых пространствах.
#### Метод
Предложенная система основывается на сложном подходе, объединяющем несколько технологий для эффективного восприятия окружения и принятия решений. Основной архитектурой является мультимодальное восприятие, включающее в себя глубокое обучение для детектирования объектов с использованием YOLOv11, оценку диапазона и глубины с помощью Depth Anything V2, а также информацию об ориентации и движении, полученной через PCB с Time-of-Flight (ToF) сенсорами и IMU. Для обеспечения высокой надёжности и минимальной задержки в действиях используется многопоточная архитектура. Для повышения безопасности во время навигации в ограниченных пространствах, встроена виртуальная безопасная рамка, которая дополняется вычислительными моделями с помощью 3D bounding box estimation и Kalman filtering. Интеграция с облачными вычислениями позволяет выполнять тяжёлые вычисления на удалённых серверах, что повышает эффективность и повышает масштабируемость.
#### Результаты
Проведенные эксперименты в закрытом лабораторном условии показали высокую эффективность системы. Она достигла среднего значения значимости YOLOv11 для объектного распознавания (mAP50) в 0.6. Оценка диапазона (Depth Anything V2) показала ошибку средней абсолютной величины (MAE) в 7.2 см. В течение 42 циклов навигации, продолжительностью около 11 минут, произошло лишь 16 безобидных нарушений виртуальной безопасной рамки. Это свидетельствует о высокой надёжности системы. Замеры завершаются низкой задержкой обработки всей системы — менее 1 секунды с момента возникновения входных данных до принятия решения, что является ключевым фактором для успешной навигации в ограниченных пространствах.
#### Значимость
Система предлагает уникальные возможности для применения в различных областях, таких как промышленность, мониторинг инфраструктуры, поисковые операции и транспортная экспедици
Annotation:
This paper introduces an advanced AI-driven perception system for autonomous
quadcopter navigation in GPS-denied indoor environments. The proposed framework
leverages cloud computing to offload computationally intensive tasks and
incorporates a custom-designed printed circuit board (PCB) for efficient sensor
data acquisition, enabling robust navigation in confined spaces. The system
integrates YOLOv11 for object detection, Depth Anything V2 for monocular depth
estimation, a PCB equipped with Tim...