📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Team Xiaomi EV-AD VLA: Learning to Navigate Socially Through Proactive Risk Perception -- Technical Report for IROS 2025 RoboSense Challenge Social Navigation Track

2025-10-11

Авторы:

Erjia Xiao, Lingfeng Zhang, Yingbo Tang, Hao Cheng, Renjing Xu, Wenbo Ding, Lei Zhou, Long Chen, Hangjun Ye, Xiaoshuai Hao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In this report, we describe the technical details of our submission to the IROS 2025 RoboSense Challenge Social Navigation Track. This track focuses on developing RGBD-based perception and navigation systems that enable autonomous agents to navigate safely, efficiently, and socially compliantly in dynamic human-populated indoor environments. The challenge requires agents to operate from an egocentric perspective using only onboard sensors including RGB-D observations and odometry, without access...

ID: 2510.07871v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated Videos

2025-10-11

Авторы:

Hongyu Li, Lingfeng Sun, Yafei Hu, Duy Ta, Jennifer Barry, George Konidaris, Jiahui Fu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Enabling robots to execute novel manipulation tasks zero-shot is a central goal in robotics. Most existing methods assume in-distribution tasks or rely on fine-tuning with embodiment-matched data, limiting transfer across platforms. We present NovaFlow, an autonomous manipulation framework that converts a task description into an actionable plan for a target robot without any demonstrations. Given a task description, NovaFlow synthesizes a video using a video generation model and distills it int...

ID: 2510.08568v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications

2025-10-10

Авторы:

Kento Kawaharazuka, Jihoon Oh, Jun Yamada, Ingmar Posner, Yuke Zhu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Amid growing efforts to leverage advances in large language models (LLMs) and vision-language models (VLMs) for robotics, Vision-Language-Action (VLA) models have recently gained significant attention. By unifying vision, language, and action data at scale, which have traditionally been studied separately, VLA models aim to learn policies that generalise across diverse tasks, objects, embodiments, and environments. This generalisation capability is expected to enable robots to solve novel downst...

ID: 2510.07077v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking

2025-10-10

Авторы:

Jiahang Liu, Yunpeng Qi, Jiazhao Zhang, Minghan Li, Shaoan Wang, Kui Wu, Hanjing Ye, Hong Zhang, Zhibo Chen, Fangwei Zhong, Zhizheng Zhang, He Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Embodied Visual Tracking (EVT) is a fundamental ability that underpins practical applications, such as companion robots, guidance robots and service assistants, where continuously following moving targets is essential. Recent advances have enabled language-guided tracking in complex and unstructured scenes. However, existing approaches lack explicit spatial reasoning and effective temporal memory, causing failures under severe occlusions or in the presence of similar-looking distractors. To addr...

ID: 2510.07134v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

2025-10-10

Авторы:

Yi Han, Cheng Chi, Enshen Zhou, Shanyu Rong, Jingkun An, Pengwei Wang, Zhongyuan Wang, Lu Sheng, Shanghang Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Vision-Language Models (VLMs) have shown remarkable capabilities in spatial reasoning, yet they remain fundamentally limited to qualitative precision and lack the computational precision required for real-world robotics. Current approaches fail to leverage metric cues from depth sensors and camera calibration, instead reducing geometric problems to pattern recognition tasks that cannot deliver the centimeter-level accuracy essential for robotic manipulation. We present TIGeR (Tool-Integrated Geo...

ID: 2510.07181v2 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 EmbodiSwap for Zero-Shot Robot Imitation Learning

2025-10-08

Авторы:

Eadom Dessalene, Pavan Mantripragada, Michael Maynord, Yiannis Aloimonos

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce EmbodiSwap - a method for producing photorealistic synthetic robot overlays over human video. We employ EmbodiSwap for zero-shot imitation learning, bridging the embodiment gap between in-the-wild ego-centric human video and a target robot embodiment. We train a closed-loop robot manipulation policy over the data produced by EmbodiSwap. We make novel use of V-JEPA as a visual backbone, repurposing V-JEPA from the domain of video understanding to imitation learning over synthetic rob...

ID: 2510.03706v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Work Zones challenge VLM Trajectory Planning: Toward Mitigation and Robust Autonomous Driving

2025-10-07

Авторы:

Yifan Liao, Zhen Sun, Xiaoyun Qiu, Zixiao Zhao, Wenbing Tang, Xinlei He, Xinhu Zheng, Tianwei Zhang, Xinyi Huang, Xingshuo Han

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Visual Language Models (VLMs), with powerful multimodal reasoning capabilities, are gradually integrated into autonomous driving by several automobile manufacturers to enhance planning capability in challenging environments. However, the trajectory planning capability of VLMs in work zones, which often include irregular layouts, temporary traffic control, and dynamically changing geometric structures, is still unexplored. To bridge this gap, we conduct the \textit{first} systematic study of VLMs...

ID: 2510.02803v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Hybrid Training for Vision-Language-Action Models

2025-10-04

Авторы:

Pietro Mazzaglia, Cansu Sancaktar, Markus Peschl, Daniel Dijkman

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Using Large Language Models to produce intermediate thoughts, a.k.a. Chain-of-thought (CoT), before providing an answer has been a successful recipe for solving complex language tasks. In robotics, similar embodied CoT strategies, generating thoughts before actions, have also been shown to lead to improved performance when using Vision-Language-Action models (VLAs). As these techniques increase the length of the model's generated outputs to include the thoughts, the inference time is negatively ...

ID: 2510.00600v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 SDA-PLANNER: State-Dependency Aware Adaptive Planner for Embodied Task Planning

2025-10-02

Авторы:

Zichao Shen, Chen Gao, Jiaqi Yuan, Tianchen Zhu, Xingcheng Fu, Qingyun Sun

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Embodied task planning requires agents to produce executable actions in a close-loop manner within the environment. With progressively improving capabilities of LLMs in task decomposition, planning, and generalization, current embodied task planning methods adopt LLM-based architecture.However, existing LLM-based planners remain limited in three aspects, i.e., fixed planning paradigms, lack of action sequence constraints, and error-agnostic. In this work, we propose SDA-PLANNER, enabling an adap...

ID: 2509.26375v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Leave No Observation Behind: Real-time Correction for VLA Action Chunks

2025-10-01

Авторы:

Kohei Sendai, Maxime Alvarez, Tatsuya Matsushima, Yutaka Matsuo, Yusuke Iwasawa

#### Контекст В многих приложениях, таких как робототехника, автоматизированные системы и искусственный интеллект, важно обеспечивать высокую эффективность и реактивность. Одним из ключевых подходов является использование Vision-Language-Action (VLA) моделей, которые позволяют объединять визуальные сигналы, языковые команды и действия в систематические решения. Однако существуют проблемы, связанные с высоким задержанием при инференсе и проблемами с корректным принятием решений на больших горизонтах времени. Это приводит к потере точности и реактивности в реальном времени. Данная статья фокусируется на улучшении реакции VLA-моделей в ситуациях, где задержка инференса и длинные горизонты времени становятся критичными. Мы предлагаем Asynchronous Action Chunk Correction (A2C2) — легковесное решение, которое добавляет временно-активные коррекции к базовым действиям модели. #### Метод Методология A2C2 основывается на асинхронном подходе к коррекции action chunks в реальном времени. Решение состоит в том, чтобы каждый шаг управления добавлял в базовую модель VLA дополнительный корректирующий модуль. Этот модуль принимает в качестве входных данных последние наблюдения, базовое действие, которое было получено от VLA-модели, позиционную особенность, которая определяет индекс действия внутри чанка, а также некоторые другие фичи из базовой политики. Ответ модуля — это зависимость времени, которая исправляет базовый вывод без необходимости переучивания всей системы. Мы используем свёрточные нейронные сети для выполнения коррекции, чтобы обеспечить высокую скорость и эффективность. #### Результаты Мы проверили нашу модель на двух наборах данных: Kinetix Dynamic Task Suite (12 задач) и LIBERO Spatial. Проводили эксперименты, меняя уровни задержки инференса и горизонт выполнения. Результаты показали, что A2C2 улучшает успешность задач на +23% в случае увеличения задержки и на +7% при больших горизонтах выполнения, в сравнении с Real-Time Chunking (RTC). Добавленная коррекция повышает реактивность и уменьшает ошибки в реальном времени, не требуя полного переучивания модели. Анализ производительности показал, что дополнительные ресурсы, требуемые для A2C2, незначительны в сравнении с большими VLA-моделями. #### Значимость Предложенный подход может быть применен в ситуациях, где необходима высокая реактивность в реальном времени, такие как роботизированные производства, автоматизированные системы и системы поддержки решений. Он обеспечивает улучшение производительности без требования к переучиванию базовых моделей. Мы видим возможность дальнейшего использования A2C2 в системах, где задержка инференса является к

Annotation:

To improve efficiency and temporal coherence, Vision-Language-Action (VLA) models often predict action chunks; however, this action chunking harms reactivity under inference delay and long horizons. We introduce Asynchronous Action Chunk Correction (A2C2), which is a lightweight real-time chunk correction head that runs every control step and adds a time-aware correction to any off-the-shelf VLA's action chunk. The module combines the latest observation, the predicted action from VLA (base actio...

ID: 2509.23224v1 cs.RO, cs.AI, cs.CV, cs.SY, eess.SY

arXiv PDF

Показано 41 - 50 из 93 записей