📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 DiWA: Diffusion Policy Adaptation with World Models

2025-08-09

Авторы:

Akshay L Chandra, Iman Nematollahi, Chenguang Huang, Tim Welschehold, Wolfram Burgard, Abhinav Valada

В статье предлагается новый подход, **DiWA** (Diffusion Policy Adaptation with World Models), для тонкой настройки diffusion policies в области обучения роботов. Основная проблема заключается в том, что fine-tuning diffusion policies с помощью reinforcement learning сталкивается с проблемой эффективной пропаграции награды в длинных последовательностях декодирования и требует миллионов реальных взаимодействий, что неэффективно и небезопасно. **DiWA** решает эту проблему, используя world model, обученный на небольшом количестве offline-интеракций, для организации offline-adaptation с использованием reinforcement learning. Это позволяет достичь существенной эффективности при использовании ресурсов и значительно уменьшить необходимое число реальных взаимодействий. На масштабном испытательном наборе **CALVIN**, DiWA достигает улучшений в производительности по 8 задачам, используя только offline-адаптацию, и требует меньшего числа физических взаимодействий по сравнению с модельно-свободными базовыми методами. Это является первым рабочим решением для offline-настройки diffusion policies в реальных роботизированных задачах.

Annotation:

Fine-tuning diffusion policies with reinforcement learning (RL) presents significant challenges. The long denoising sequence for each action prediction impedes effective reward propagation. Moreover, standard RL methods require millions of real-world interactions, posing a major bottleneck for practical fine-tuning. Although prior work frames the denoising process in diffusion policies as a Markov Decision Process to enable RL-based updates, its strong dependence on environment interaction remai...

ID: 2508.03645v1 cs.RO, cs.CV, cs.LG

arXiv PDF

📄 RoboTron-Sim: Improving Real-World Driving via Simulated Hard-Case

2025-08-09

Авторы:

Baihui Xiao, Chengjian Feng, Zhijian Huang, Feng yan, Yujie Zhong, Lin Ma

Автоматическое управление транспортом сталкивается с трудностями при обучении на редких высокорисковых сценариях, таких как сложные интеракции и редкие сценарии, возникающие редко. Данные по этим сценариям сложно получить в реальном мире, что приводит к ухудшению работы систем автономного управления в критичных ситуациях. В статье предлагается решение — RoboTron-Sim, система, оптимизирующая реальность действий автомобиля в критичных ситуациях с использованием симуляционных сценариев. Она включает в себя создание симуляционного набора данных Hard-case Augmented Synthetic Scenarios (HASS), охватывающего 13 вариантов высокорисковых сценариев, а также многоканальные методы обучения, включая Scenario-aware Prompt Engineering (SPE) и Image-to-Ego Encoder (I2E Encoder), позволяющие адаптировать модели многомодальных языковых моделей к симуляционной среде. Эксперименты на датасете nuScenes показали, что RoboTron-Sim повышает производительность на 50% при открытом планировании маршрута, а квалитативные результаты подтверждают его эффективность в управлении редкими критичными сценариями.

Annotation:

Collecting real-world data for rare high-risk scenarios, long-tailed driving events, and complex interactions remains challenging, leading to poor performance of existing autonomous driving systems in these critical situations. In this paper, we propose RoboTron-Sim that improves real-world driving in critical situations by utilizing simulated hard cases. First, we develop a simulated dataset called Hard-case Augmented Synthetic Scenarios (HASS), which covers 13 high-risk edge-case categories, a...

ID: 2508.04642v1 cs.RO, cs.CV

arXiv PDF

📄 Learning to See and Act: Task-Aware View Planning for Robotic Manipulation

2025-08-09

Авторы:

Yongjie Bai, Zhouxia Wang, Yang Liu, Weixing Chen, Ziliang Chen, Mingtong Dai, Yongsen Zheng, Lingbo Liu, Guanbin Li, Liang Lin

Научная статья «Learning to See and Act: Task-Aware View Planning for Robotic Manipulation» рассматривает проблему ограниченности современных vision-language-action (VLA) моделей для многозадачных задач роботской манипуляции, связанную с работой с единым статическим визуальным представлением. Такие модели страдают от недостатка трехмерного пересчета и влияния одной задачи на другую, что приводит к снижению robustness и generalization. В ответ на эту проблему авторы предлагают Task-Aware View Planning (TAVP) — новую фреймворк, который объединяет active view planning с task-specific representation learning. TAVP использует эффективный алгоритм эксплорации, основанный на новом методе pseudo-environment, для активной активации наиболее информативных view. Также предложен Mixture-of-Experts (MoE) visual encoder, который разделяет признаки на различные задачи, улучшая как файлность представлений, так и их generalization. Результаты экспериментов на RLBench показывают, что TAVP превосходит текущие state-of-the-art fixed-view модели в action prediction.

Annotation:

Recent vision-language-action (VLA) models for multi-task robotic manipulation commonly rely on static viewpoints and shared visual encoders, which limit 3D perception and cause task interference, hindering robustness and generalization. In this work, we propose Task-Aware View Planning (TAVP), a framework designed to overcome these challenges by integrating active view planning with task-specific representation learning. TAVP employs an efficient exploration policy, accelerated by a novel pseud...

ID: 2508.05186v1 cs.RO, cs.CV

arXiv PDF

📄 DistillDrive: End-to-End Multi-Mode Autonomous Driving Distillation by Isomorphic Hetero-Source Planning Model

2025-08-09

Авторы:

Rui Yu, Xianghang Zhang, Runkai Zhao, Huaicheng Yan, Meng Wang

**Резюме** Автоматическое управление транспортными средствами столкнулось с ограничениями в робастности и универсальности решений, опирающихся только на модели ego-vehicle. На основе этой проблемы авторы предлагают DistillDrive — модель классического размера с использованием knowledge distillation. Она оптимизирует multi-mode motion planning с использованием planning-oriented instances, созданных с помощью generative modeling. Особенностью является использование structured scene representations в качестве teacher model, которая нацелена на повышение робастности и уменьшение collision rate. Результаты на nuScenes и NAVSIM демонстрируют улучшение closed-loop performance на 3 балла и сокращение collision rate на 50% по сравнению со стандартным подходом. Авторы обещают сделать исходный код и модель доступными для исследователей.

Annotation:

End-to-end autonomous driving has been recently seen rapid development, exerting a profound influence on both industry and academia. However, the existing work places excessive focus on ego-vehicle status as their sole learning objectives and lacks of planning-oriented understanding, which limits the robustness of the overall decision-making prcocess. In this work, we introduce DistillDrive, an end-to-end knowledge distillation-based autonomous driving model that leverages diversified instance i...

ID: 2508.05402v1 cs.RO, cs.CV

arXiv PDF

📄 Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

2025-08-09

Авторы:

Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren

**Резюме** Роботизированная манипуляция является ключевым видом современной интеллектуальной активности, но существуют значительные проблемы с её обучением и реализацией в реальных условиях. Особенно трудно достичь общего использования, так как существующие подходы часто требуют больших объёмов данных или специализированных моделей для различных задач. Мы предлагаем **Genie Envisioner (GE)** — универсальную платформу для обучения и оценки манипулятивных задач на основе видео-генерирующей модели. Основой GE лежит нейронный модельный комплекс, включающий в себя обучение политик, их оценку и моделирование в одной структуре размера видео. GE-Base, основная модель, является крупномасштабной моделью на основе распределения видео, логически условную инструкцию. GE-Act развивает потоки действий на основе полученных координат и предлагает легковесный подход к гибкой интерпретации политик. Для эффективного моделирования и оценки, GE-Sim служит для выполнения задач с помощью роллаутов в высоком разрешении. Мы также предлагаем EWMBench, многомерный бенчмарк для оценки визуального качества, физической консистентности и инструкционной алгоритмической корреляции. Этот подход к обучению и оценке роботов с общими навыками упрощает и повышает качество реализации в больших масштабах. Мы открыли доступ коду, моделям и бенчмаркам, чтобы поощрить дальнейшую разработку в области универсальных систем манипуляции.

Annotation:

We introduce Genie Envisioner (GE), a unified world foundation platform for robotic manipulation that integrates policy learning, evaluation, and simulation within a single video-generative framework. At its core, GE-Base is a large-scale, instruction-conditioned video diffusion model that captures the spatial, temporal, and semantic dynamics of real-world robotic interactions in a structured latent space. Built upon this foundation, GE-Act maps latent representations to executable action trajec...

ID: 2508.05635v1 cs.RO, cs.CV

arXiv PDF

Показано 221 - 225 из 225 записей