📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Akshay L Chandra, Iman Nematollahi, Chenguang Huang, Tim Welschehold, Wolfram Burgard, Abhinav Valada
В статье предлагается новый подход, **DiWA** (Diffusion Policy Adaptation with World Models), для тонкой настройки diffusion policies в области обучения роботов. Основная проблема заключается в том, что fine-tuning diffusion policies с помощью reinforcement learning сталкивается с проблемой эффективной пропаграции награды в длинных последовательностях декодирования и требует миллионов реальных взаимодействий, что неэффективно и небезопасно. **DiWA** решает эту проблему, используя world model, обученный на небольшом количестве offline-интеракций, для организации offline-adaptation с использованием reinforcement learning. Это позволяет достичь существенной эффективности при использовании ресурсов и значительно уменьшить необходимое число реальных взаимодействий. На масштабном испытательном наборе **CALVIN**, DiWA достигает улучшений в производительности по 8 задачам, используя только offline-адаптацию, и требует меньшего числа физических взаимодействий по сравнению с модельно-свободными базовыми методами. Это является первым рабочим решением для offline-настройки diffusion policies в реальных роботизированных задачах.
Annotation:
Fine-tuning diffusion policies with reinforcement learning (RL) presents
significant challenges. The long denoising sequence for each action prediction
impedes effective reward propagation. Moreover, standard RL methods require
millions of real-world interactions, posing a major bottleneck for practical
fine-tuning. Although prior work frames the denoising process in diffusion
policies as a Markov Decision Process to enable RL-based updates, its strong
dependence on environment interaction remai...
Авторы:
Baihui Xiao, Chengjian Feng, Zhijian Huang, Feng yan, Yujie Zhong, Lin Ma
Автоматическое управление транспортом сталкивается с трудностями при обучении на редких высокорисковых сценариях, таких как сложные интеракции и редкие сценарии, возникающие редко. Данные по этим сценариям сложно получить в реальном мире, что приводит к ухудшению работы систем автономного управления в критичных ситуациях. В статье предлагается решение — RoboTron-Sim, система, оптимизирующая реальность действий автомобиля в критичных ситуациях с использованием симуляционных сценариев. Она включает в себя создание симуляционного набора данных Hard-case Augmented Synthetic Scenarios (HASS), охватывающего 13 вариантов высокорисковых сценариев, а также многоканальные методы обучения, включая Scenario-aware Prompt Engineering (SPE) и Image-to-Ego Encoder (I2E Encoder), позволяющие адаптировать модели многомодальных языковых моделей к симуляционной среде. Эксперименты на датасете nuScenes показали, что RoboTron-Sim повышает производительность на 50% при открытом планировании маршрута, а квалитативные результаты подтверждают его эффективность в управлении редкими критичными сценариями.
Annotation:
Collecting real-world data for rare high-risk scenarios, long-tailed driving
events, and complex interactions remains challenging, leading to poor
performance of existing autonomous driving systems in these critical
situations. In this paper, we propose RoboTron-Sim that improves real-world
driving in critical situations by utilizing simulated hard cases. First, we
develop a simulated dataset called Hard-case Augmented Synthetic Scenarios
(HASS), which covers 13 high-risk edge-case categories, a...
Авторы:
Yongjie Bai, Zhouxia Wang, Yang Liu, Weixing Chen, Ziliang Chen, Mingtong Dai, Yongsen Zheng, Lingbo Liu, Guanbin Li, Liang Lin
Научная статья «Learning to See and Act: Task-Aware View Planning for Robotic Manipulation» рассматривает проблему ограниченности современных vision-language-action (VLA) моделей для многозадачных задач роботской манипуляции, связанную с работой с единым статическим визуальным представлением. Такие модели страдают от недостатка трехмерного пересчета и влияния одной задачи на другую, что приводит к снижению robustness и generalization. В ответ на эту проблему авторы предлагают Task-Aware View Planning (TAVP) — новую фреймворк, который объединяет active view planning с task-specific representation learning. TAVP использует эффективный алгоритм эксплорации, основанный на новом методе pseudo-environment, для активной активации наиболее информативных view. Также предложен Mixture-of-Experts (MoE) visual encoder, который разделяет признаки на различные задачи, улучшая как файлность представлений, так и их generalization. Результаты экспериментов на RLBench показывают, что TAVP превосходит текущие state-of-the-art fixed-view модели в action prediction.
Annotation:
Recent vision-language-action (VLA) models for multi-task robotic
manipulation commonly rely on static viewpoints and shared visual encoders,
which limit 3D perception and cause task interference, hindering robustness and
generalization. In this work, we propose Task-Aware View Planning (TAVP), a
framework designed to overcome these challenges by integrating active view
planning with task-specific representation learning. TAVP employs an efficient
exploration policy, accelerated by a novel pseud...
Авторы:
Rui Yu, Xianghang Zhang, Runkai Zhao, Huaicheng Yan, Meng Wang
**Резюме**
Автоматическое управление транспортными средствами столкнулось с ограничениями в робастности и универсальности решений, опирающихся только на модели ego-vehicle. На основе этой проблемы авторы предлагают DistillDrive — модель классического размера с использованием knowledge distillation. Она оптимизирует multi-mode motion planning с использованием planning-oriented instances, созданных с помощью generative modeling. Особенностью является использование structured scene representations в качестве teacher model, которая нацелена на повышение робастности и уменьшение collision rate. Результаты на nuScenes и NAVSIM демонстрируют улучшение closed-loop performance на 3 балла и сокращение collision rate на 50% по сравнению со стандартным подходом. Авторы обещают сделать исходный код и модель доступными для исследователей.
Annotation:
End-to-end autonomous driving has been recently seen rapid development,
exerting a profound influence on both industry and academia. However, the
existing work places excessive focus on ego-vehicle status as their sole
learning objectives and lacks of planning-oriented understanding, which limits
the robustness of the overall decision-making prcocess. In this work, we
introduce DistillDrive, an end-to-end knowledge distillation-based autonomous
driving model that leverages diversified instance i...
Авторы:
Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren
**Резюме**
Роботизированная манипуляция является ключевым видом современной интеллектуальной активности, но существуют значительные проблемы с её обучением и реализацией в реальных условиях. Особенно трудно достичь общего использования, так как существующие подходы часто требуют больших объёмов данных или специализированных моделей для различных задач.
Мы предлагаем **Genie Envisioner (GE)** — универсальную платформу для обучения и оценки манипулятивных задач на основе видео-генерирующей модели. Основой GE лежит нейронный модельный комплекс, включающий в себя обучение политик, их оценку и моделирование в одной структуре размера видео. GE-Base, основная модель, является крупномасштабной моделью на основе распределения видео, логически условную инструкцию. GE-Act развивает потоки действий на основе полученных координат и предлагает легковесный подход к гибкой интерпретации политик. Для эффективного моделирования и оценки, GE-Sim служит для выполнения задач с помощью роллаутов в высоком разрешении.
Мы также предлагаем EWMBench, многомерный бенчмарк для оценки визуального качества, физической консистентности и инструкционной алгоритмической корреляции. Этот подход к обучению и оценке роботов с общими навыками упрощает и повышает качество реализации в больших масштабах. Мы открыли доступ коду, моделям и бенчмаркам, чтобы поощрить дальнейшую разработку в области универсальных систем манипуляции.
Annotation:
We introduce Genie Envisioner (GE), a unified world foundation platform for
robotic manipulation that integrates policy learning, evaluation, and
simulation within a single video-generative framework. At its core, GE-Base is
a large-scale, instruction-conditioned video diffusion model that captures the
spatial, temporal, and semantic dynamics of real-world robotic interactions in
a structured latent space. Built upon this foundation, GE-Act maps latent
representations to executable action trajec...
Показано 221 -
225
из 225 записей