📚 Саммари научных статей из arXiv

Найдено 104 результатов по запросу 'cs.RO, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 KoopMotion: Learning Almost Divergence Free Koopman Flow Fields for Motion Planning

2025-09-13

Авторы:

Alice Kate Li, Thales C Silva, Victoria Edwards, Vijay Kumar, M. Ani Hsieh

## Контекст Область движения и динамики роботов остается широко изучаемой направленностью в робототехнике, так как потребность в эффективных и точных методах планирования движения вызвана требованиями к безопасности, эффективности и удобству эксплуатации. Несмотря на прогресс в этой области, существуют несколько проблем, включая необходимость в более точном подходе к моделированию динамики взаимодействия робота с окружением и повышение точности планирования по сравнению с традиционными методами, основанными на классических моделях динамики. Применение теории Koopman для моделирования динамики систем становится все более популярным из-за ее мощи в представлении сложных динамических систем с помощью линейных моделей динамики. Однако, теория Koopman не интринсически способна обеспечить выполнение требований, таких как следование за указанным траекторией и конечное схождение к ней. Кроме того, существуют ряд проблем, связанных с эффективностью и скоростью планирования движения, которые остаются недостаточно затронутыми в нынешних решениях. В данной работе предлагается новый подход, основанный на теории Koopman, для моделирования движения робота и его планирования. Метод KoopMotion предлагает перспективу для решения этих проблем, используя теорию Koopman в сочетании с аппроксимацией динамических систем, чтобы улучшить моделирование и планирование движения. ## Метод Предложенный метод, KoopMotion, представляет движение в качестве динамической системы, описываемой теорией Коопмана. Основной идеей является то, что потоки движения в данной системе могут быть представлены в виде линейных операторов, которые могут быть использованы для описания динамики системы. В KoopMotion, потоки движения аппроксимируются с помощью Koopman Operators, чтобы эмулировать желаемые траектории, а затем использованы правила распространения динамики для обеспечения гладкого движения. Это позволяет роботу, находящемуся вне желаемого пути, подстраиваться под требуемое направление и следовать за ним до конца. Обучение происходит с помощью данных, полученных от демонстрации, и включает в себя анализ спектра, чтобы обеспечить точность и детализацию моделирования. Архитектура KoopMotion тесно интегрирует Koopman Operators с методами обучения на основе данных, позволяя эффективно использовать обучающие данные и достигать высокой эффективности в планировании движения. ## Результаты Результаты экспериментов показывают, что метод KoopMotion эффективен в обработке небольших наборов данных и может генерировать точные модели движения с минимальным количеством данных. Анализ на данных LASA (LASA human handwriting dataset) и траекторий manipulator end-effector демонстриру

Annotation:

In this work, we propose a novel flow field-based motion planning method that drives a robot from any initial state to a desired reference trajectory such that it converges to the trajectory's end point. Despite demonstrated efficacy in using Koopman operator theory for modeling dynamical systems, Koopman does not inherently enforce convergence to desired trajectories nor to specified goals -- a requirement when learning from demonstrations (LfD). We present KoopMotion which represents motion fl...

ID: 2509.09074v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Grasp-MPC: Closed-Loop Visual Grasping via Value-Guided Model Predictive Control

2025-09-10

Авторы:

Jun Yamada, Adithyavairavan Murali, Ajay Mandlekar, Clemens Eppner, Ingmar Posner, Balakumar Sundaralingam

## Контекст Грабливание предметов в неупорядоченных средах остается значимой проблемой в области робототехники. Открытые циклы грабливания однозначно оправданы в управляемых условиях, но становятся неэффективными в мешанинах и значительно ухудшаются при изменении положения предметов в процессе грабливания. Закрытые циклы грабливания, в свою очередь, показывают лучшие результаты в соответствующих условиях, но страдают от отсутствия общей гибкости и сложности в генерализации. Исследователи предлагают **Grasp-MPC** — закрытый цикл грабливания на основе 6-ДоФ визуальных наблюдений, нацеленный на реактивное и устойчивое грабливание новых предметов в сложных условиях. ## Метод **Grasp-MPC** основывается на использовании классического **Model Predictive Control (MPC)**, в котором используется **value function**, обученная на визуальных данных с 2 миллионов грабливаний в синтетической среде. Эти данные включают успешные и неудачные грабливания. Значение функции используется для регулирования целевого поведения робота во время грабливания. Работа гармонично с другими задачами, такими как уменьшение коллизий и выполнение гладких движений. Архитектура оснащена возможностями для обработки сложных сцен, которые требуют быстрого реагирования и высокой точности. ## Результаты Исследователи проверили **Grasp-MPC** на двух платформах: **FetchBench** и реальном мире. На **FetchBench**, в симуляционных условиях, **Grasp-MPC** улучшил результаты грабливания до 32.6% по сравнению с текущими методами, включая **open-loop**, **diffusion policy**, **transformer policy**, и **IQL**. На реальных устройствах, в шумных условиях, улучшение составило 33.3%. Это достижение доказывает силу закрытого цикла грабливания в более разнообразных условиях, чем ранее. ## Значимость **Grasp-MPC** может применяться в сценариях, где необходимо устойчивое грабливание в непохожих ситуациях, включая робототехнические задачи в домашних и промышленных условиях. Он предлагает высокую гибкость и реактивность, существенно улучшая точность и устойчивость по сравнению с открытыми циклами. Такой подход может стать ключевым для развития роботов, которые должны работать в новых и сложных средах. ## Выводы **Grasp-MPC** доказывает высокую эффективность в закрытом цикле грабливания в сравнении с ранее используемыми технологиями. Он показывает, что использование значения функции на основе грабливания может стать важной составляющей устойчивого робототехнического решения вне лаборатории. Будущие исследования будут направлены на улучшение обработки ш

Annotation:

Grasping of diverse objects in unstructured environments remains a significant challenge. Open-loop grasping methods, effective in controlled settings, struggle in cluttered environments. Grasp prediction errors and object pose changes during grasping are the main causes of failure. In contrast, closed-loop methods address these challenges in simplified settings (e.g., single object on a table) on a limited set of objects, with no path to generalization. We propose Grasp-MPC, a closed-loop 6-DoF...

ID: 2509.06201v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 In-Context Policy Adaptation via Cross-Domain Skill Diffusion

2025-09-09

Авторы:

Minjong Yoo, Woo Kyung Kim, Honguk Woo

#### Контекст В области управления и автоматизации наблюдается рост интереса к методам, позволяющим быстро адаптировать политики управления в различных сценариях. Однако, адаптация политик в долгосрочных задачах часто сталкивается с трудностями при ограниченных данных и необходимости изменений в существующих моделях. Эти ограничения становятся критичными в сценариях, где время отклика и эффективность критичны, например в робототехнических системах и системах автономного управления. Данная работа фокусируется на разработке решения, которое обеспечивает эффективную адаптацию политик управления в таких условиях, используя методы обучения скрытых скилов и cross-domain skill diffusion. #### Метод Разработанная ICPAD-фреймворк основывается на схеме cross-domain skill diffusion, которая объединяет обучение доменно-независимых прототипных скилов и доменно-специфического skill adapter. Данные прототипы скилов выступают в роли общих моделей поведения, которые могут быть переданы между различными доменами, обеспечивая переносимость. Для улучшения адаптации к конкретному домену вводится динамическая схема domain prompting, которая во время работы адаптирует skill adapter к новому домену. Методология основывается на моделировании и изучении кросс-доменных симметрий, что позволяет эффективно передавать и адаптировать скрытые скилы в новых условиях. #### Результаты Использованы данные из симуляторов Metaworld и CARLA, представляющих различные сценарии robotic manipulation и autonomous driving. Эксперименты показали, что ICPAD-фреймворк превосходит существующие подходы в сценариях с ограниченными данными и различными особенностями домена, такими как различия в динамике среды, визуальной обстановке и характеристик задач. Данные результаты подтверждают высокую эффективность ICPAD в условиях строгих ограничений на моделирование и обучение. #### Значимость ICPAD-фреймворк может быть применен в различных сферах, где необходима быстрая адаптация политик управления в новых условиях, таких как робототехнические системы, автомобильные системы и даже системы для автоматизации производственных процессов. Его преимущества заключаются в том, что он может работать с ограниченными данными, не требуя изменений в существующих моделях, и обеспечивает высокую переносимость между доменами. Такой подход имеет потенциал для ускорения развития интеллектуальных систем, делая их более универсальными и эффективными в различных средах. #### Выводы Результаты ICPAD показывают, что он является эффективным инструментом для быстрой адаптации политик управления в долгосрочных задачах, в том числе в сценариях, где требуется высокая переносимость и ограниченные ресурсы для моделировани

Annotation:

In this work, we present an in-context policy adaptation (ICPAD) framework designed for long-horizon multi-task environments, exploring diffusion-based skill learning techniques in cross-domain settings. The framework enables rapid adaptation of skill-based reinforcement learning policies to diverse target domains, especially under stringent constraints on no model updates and only limited target domain data. Specifically, the framework employs a cross-domain skill diffusion scheme, where domain...

ID: 2509.04535v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Bootstrapping Reinforcement Learning with Sub-optimal Policies for Autonomous Driving

2025-09-09

Авторы:

Zhihao Zhang, Chengyang Peng, Ekim Yurtsever, Keith A. Redmill

## Контекст Современные автомобили с автономным управлением широко используют методы машинного обучения, особенно техники оптимизации подкрепления (Reinforcement Learning, RL), для построения эффективных стратегий управления. Однако, RL-агенты часто сталкиваются с проблемами, такими как неэффективность обучения и недостаточность эксплорейшена, что снижает их эффективность в обнаружении оптимальных стратегий управления. Эти проблемы особенно заметны при обучении агентов для задач динамического управления, таких как взаимодействие с другими участниками дорожного движения. Нашим целью является разработка метода, который улучшит обучение RL-систем, используя примерные демонстрации, не требующие высокого уровня оптимизации. ## Метод Мы предлагаем систему, использующую подход, основанный на комбинации Soft Actor Critic (SAC) с правильной демонстрацией. Для этого мы используем правильный контроллер смены полос, который демонстрирует простую стратегию для смены полос, которую RL-система может использовать как начальную точку для обучения. Этот правильный контроллер вводится как дополнение к алгоритму SAC, который руководствует агента в сложных ситуациях на дороге. Мы полагаемся на демонстрационный подход, который значительно улучшает эффективность обучения, особенно в случаях, когда водительские стратегии должны быть устойчивы и стремятся к минимизации ошибок. ## Результаты Мы провели эксперименты на симуляторе автомобиля с автономным управлением, сравнив нашу систему с агентом, обученным только с помощью SAC. Результаты показали, что интеграция демонстрационного контроллера с SAC приводит к значительному улучшению показателей управления, включая более стабильное взаимодействие с другими транспортными средствами и более эффективное обучение, особенно в сложных условиях. Эти результаты подтверждают, что демонстрационный подход может значительно улучшить скорость и качество обучения RL-систем в автономном вождении. ## Значимость Наше решение может быть применено в сфере автономного вождения, где необходимо обеспечить безопасность и эффективность в сложных средах. Благодаря демонстрационному подходу, мы можем уменьшить время обучения и повысить точность стратегий управления. Этот подход может быть расширен для других задач, включая логистику, системы самоуправляемых мобильных устройств и другие ситуации, где необходимо оптимизировать стратегии взаимодействия. ## Выводы Мы разработали метод, который использует примерные демонстрации для улучшения обучения RL-систем в автономном вождении. Этот подход позволяет улучшить эффективность и безопасность д

Annotation:

Automated vehicle control using reinforcement learning (RL) has attracted significant attention due to its potential to learn driving policies through environment interaction. However, RL agents often face training challenges in sample efficiency and effective exploration, making it difficult to discover an optimal driving strategy. To address these issues, we propose guiding the RL driving agent with a demonstration policy that need not be a highly optimized or expert-level controller. Specific...

ID: 2509.04712v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Reactive In-Air Clothing Manipulation with Confidence-Aware Dense Correspondence and Visuotactile Affordance

2025-09-06

Авторы:

Neha Sunil, Megha Tippur, Arnau Saumell, Edward Adelson, Alberto Rodriguez

## Контекст Манипулирование одеждой представляет собой сложную задачу из-за сложной структуры и динамики материала, частых самостоятельных скрытий (self-occlusion) и высокой непредсказуемости. До сих пор, существующие системы часто прибегают к раздражительной простотой, либо предполагают доступность ключевых черт. Наша работа предлагает двойной-рукой (dual-arm) систему с визуотактильным подходом, которая объединяет подходы визуальной корреляции (correspondence) с учитывающей навыки тактильного восприятия (visuotactile affordance). Данная модель позволяет работать с существенно складированными и висующими одежными элементами, обеспечивая более гибкость и достоверность. ## Метод Наша система основана на двойном использовании сенсоров, которые объединяют визуальное и тактильное восприятие. Модель визуальной корреляции воспроизводится на симулированной высокоточной выборке данных, используя распределительный потери (distributional loss), который ловит симметрии ткани и формирует надежные оценки вероятности визуальной корреляции. Эти оценки помогают реактивному менеджеру (reactive state machine) адаптировать свою стратегию корректировки в зависимости от уровня неопределенности оптического восприятия. Одновременно, модель визуально-тактильного сжимания (visuotactile grasp affordance), самостоятельно учитаемая (self-supervised) используя высокоразрешенные тактильные данные, определяет регионы для безопасного захвата. Такой же классификатор используется во время выполнения задач для непосредственного валидации захвата. Благодаря этому подходу, модель может отложить действия в условиях нехватки уверенности, что позволяет ей справляться с высоко-оккультными (highly occluded) ситуациями, такими как работа над столовыми поверхностями и в воздухе. ## Результаты Мы проверили нашу модель на задачах складирования и висания одежды. Наши модели визуальной корреляции и визуально-тактильных захватов показали высокую точность в выполнении задач. В симуляции, а также в реальном мире, наши системы продемонстрировали эффективность в обработке сложных конфигураций одежды, включая складирование на столе и висание на гардеробе. Данные вычисления позволяют нам говорить о достаточной общей способности модели к различным задачам манипулирования одеждой. ## Значимость Мы видим возможности применения нашей модели в различных областях, таких как автоматизация домашних задач, роботизированная модная промышленность или роботизированная помощь лицам с ограниченными физическими возможностями. Наш подход предоставляет несколько преимуществ, включая высокую точность, ус

Annotation:

Manipulating clothing is challenging due to complex configurations, variable material dynamics, and frequent self-occlusion. Prior systems often flatten garments or assume visibility of key features. We present a dual-arm visuotactile framework that combines confidence-aware dense visual correspondence and tactile-supervised grasp affordance to operate directly on crumpled and suspended garments. The correspondence model is trained on a custom, high-fidelity simulated dataset using a distributio...

ID: 2509.03889v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Multi-vessel Interaction-Aware Trajectory Prediction and Collision Risk Assessment

2025-09-05

Авторы:

Md Mahbub Alam, Jose F. Rodrigues-Jr, Gabriel Spadon

## Контекст Обеспечение точной и надежной прогнозирования траекторий судов является ключевым аспектом повышения ситуационной осведомленности и предотвращения кораблекрушений. Существующие модели, основанные на данных, часто ограничиваются прогнозированием отдельно взятых судов, без учета характера их взаимодействий. Эти взаимодействия, включая законы обороты, синхронизацию движения, а также конкретные факторы риска столкновений, часто остаются за пределами области внимания. Это создает значительные проблемы для мореплавательных систем, работающих в реальном времени, так как неверно прогнозированные траектории могут привести к возникновению опасных ситуаций. Наша модель предлагает решение этой проблемы, ориентируясь на создание многосудовой модели, учитывающей взаимодействия, и интегрирующую анализ риска столкновений. ## Метод Мы предлагаем преобразователь-основную модель (transformer-based framework), которая состоит из нескольких компонентов. Она начинает с распознавания ближних судов в окрестности целевого судна. Для каждого из этих судов выделяются и предсказываются их движения в двух потоках: один для базовых кинематических параметров, и другой для прогнозирования движения в зависимости от выделенных физических признаков. Используется гибридная система позиционирования, которая учитывает как местные модели движения, так и длинные зависимости в данных. Кроме того, мы применяем сверточные нейронные сети для учета временной локальности. Эта модель позволяет одновременно прогнозировать несколько траекторий и анализировать их взаимодействия, чтобы строить более точные прогнозы и оценивать риск столкновений. ## Результаты Мы проводили эксперименты на большом наборе реальных данных, полученных из автоматической идентификационной системы (AIS). Наши результаты показали, что модель превосходит существующие модели по точности прогнозирования отдельных траекторий, а также по способности оценивать риски столкновений. Мы вычисляли метрики, связанные с качеством прогноза (такие как MAE, RMSE) и сравнивали их с другими моделями. Также мы проводили симуляции взаимодействий между судами, чтобы выявлять потенциальные риски столкновений, и демонстрировали, как модель может предоставлять пользователям сигналы о потенциальных угрозах. ## Значимость Наша модель может быть применена в различных областях, таких как мореплавательная безопасность, автоматизированные системы навигации, а также для повышения оборотов в морских транспортных системах. Обладая более точным прогнозом траекторий и анализом риска столкновений, эта модель может улучшить реагирование на потенциальные уг

Annotation:

Accurate vessel trajectory prediction is essential for enhancing situational awareness and preventing collisions. Still, existing data-driven models are constrained mainly to single-vessel forecasting, overlooking vessel interactions, navigation rules, and explicit collision risk assessment. We present a transformer-based framework for multi-vessel trajectory prediction with integrated collision risk analysis. For a given target vessel, the framework identifies nearby vessels. It jointly predict...

ID: 2509.01836v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Learning Social Heuristics for Human-Aware Path Planning

2025-09-05

Авторы:

Andrea Eirale, Matteo Leonetti, Marcello Chiaberge

## Контекст Социальная роботизированная навигация стала темой многочисленных исследований в последние годы. Основной акцент в этих исследованиях был сделан на том, чтобы роботы передвигались по пространству, избегая препятствий и соблюдая социальное расстояние от людей, а также предсказывали их движения, чтобы оптимизировать траектории. Однако, чтобы роботы были социально приемлемы, необходимо, чтобы они приобрели определенные социальные нормы, которые невозможно получить из обычных алгоритмов навигации. Эти нормы требуют специального процесса обучения. Мы предлагаем метод Heuristic Planning with Learned Social Value (HPLSV), который учитывает значение социальной навигации в виде дополнительной хитрости (heuristic) для алгоритмов типа графа. В настоящем рабочем этапе мы применяем этот подход к обычной социальной ситуации, когда робот присоединяется к очереди людей, с целью дальнейшего расширения на другие типы социальных ситуаций. ## Метод Мы предлагаем метод Heuristic Planning with Learned Social Value (HPLSV), который объединяет социальные знания в форме значения (value function), описывающего стоимость социальной навигации. Этот метод сочетает социальные знания с обычными техническими хитростями (heuristics) в графических алгоритмах планирования траекторий. Мы используем значение, полученное с помощью машинного обучения, для оценки социальной стоимости различных траекторий. Такой подход позволяет роботу принимать решения, учитывая не только физические препятствия, но также социальные факторы, такие как соблюдение дистанции или принятие социальных норм в сценариях, где робот взаимодействует с людьми. Метод построен на структуре обучения с подкреплением и включает в себя нейронные сети для оценки социальной ценности. ## Результаты Мы проверили наш метод в сценарии, когда робот присоединяется к очереди людей. Мы использовали симуляционное окружение с различными вариантами поведения людей, чтобы протестировать различные ситуации. Наши эксперименты показали, что метод HPLSV позволяет роботу эффективно и социально присоединяться к очереди, соблюдая социальное расстояние и принимая учет движения других людей. Мы сравнили наш метод с существующими технологиями и получили значительные улучшения в социальной приемлемости движения робота. ## Значимость Метод HPLSV может быть применен в различных областях, где роботы взаимодействуют с людьми, таких как роботы-розничные помощники в магазинах, роботы-помощники в домашних условиях или роботы-наставники в центрах обучения. Этот подход не только улучшает социальную приемлемость робота, но и повышает его удо

Annotation:

Social robotic navigation has been at the center of numerous studies in recent years. Most of the research has focused on driving the robotic agent along obstacle-free trajectories, respecting social distances from humans, and predicting their movements to optimize navigation. However, in order to really be socially accepted, the robots must be able to attain certain social norms that cannot arise from conventional navigation, but require a dedicated learning process. We propose Heuristic Planni...

ID: 2509.02134v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Efficient Virtuoso: A Latent Diffusion Transformer Model for Goal-Conditioned Trajectory Planning

2025-09-05

Авторы:

Antonio Guillen-Perez

#### Контекст Автоматизированная планировка маршрутов является ключевым компонентом систем автономного управления транспортом. Одной из основных задач является генерация разнообразных и реалистичных дистрибуций будущих маршрутов, чтобы обеспечить безопасность и эффективность движения. Несмотря на прогресс в генеративных моделях, существуют трудности в достижении высокой точности, высокой эффективности и контроля над траекториями. Этот аспект является критическим для создания надежных систем планирования для автономных транспортных средств. #### Метод Мы предлагаем **Efficient Virtuoso** — усовершенствованную модель на основе трансформера, работающую в низкоразмерном латентном пространстве. Модель использует уникальную двухэтапную нормализацию для подготовки данных. В первом этапе масштабируются траектории, чтобы сохранить их геометрический аспект, а затем вторично нормализуется латентное пространство PCA для обеспечения стабильности обучения. В ходе денойсинга в этом низкоразмерном пространстве используется простая MLP-денойзер, которая принимает в качестве входа контекст сцены, обрабатываемый мощным Transformer-based StateEncoder. #### Результаты Проведенные эксперименты показали, что Efficient Virtuoso достигает состояния лидера на Waymo Open Motion Dataset, показывая минимальную ошибку по декарсиану (minADE) равную 0,25. Аблационные исследования подтвердили важность различных аспектов конструкции модели. Особое внимание было уделено репрезентации целей (goal representation). Было выявлено, что единственное место назначения (endpoint goal) может устранить стратегическую неоднозначность, но для точного и высококачественного эмулирования траекторий, подобных людскому вождению, необходим более широкий, многошаговый спарский маршрут. #### Значимость Предложенная модель обладает широкими возможностями применения в области автоматизированного управления транспортом. Она обеспечивает высокую эффективность и гибкость в генерации траекторий, что может улучшить безопасность и эффективность движения автомобилей. Благодаря своей структуре, модель может быть легко адаптирована к различным условиям движения и сценариям. Это делает ее полезной для реализации в системах самоводившихся машин и системах поддержки решений для водителей. #### Выводы Мы представили Efficient Virtuoso — мощную и эффективную модель для планирования траекторий, которая достигла высоких результатов на сложных данных о маршрутах. Наши результаты раскрывают важность точной репрезентации целей для повышения точности выполнения. Будущие исследования будут сфокусированы на расширении модели для более

Annotation:

The ability to generate a diverse and plausible distribution of future trajectories is a critical capability for autonomous vehicle planning systems. While recent generative models have shown promise, achieving high fidelity, computational efficiency, and precise control remains a significant challenge. In this paper, we present the \textbf{Efficient Virtuoso}, a conditional latent diffusion model for goal-conditioned trajectory planning. Our approach introduces a novel two-stage normalization p...

ID: 2509.03658v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Can the Waymo Open Motion Dataset Support Realistic Behavioral Modeling? A Validation Study with Naturalistic Trajectories

2025-09-05

Авторы:

Yanlin Zhang, Sungyong Chung, Nachuan Li, Dana Monzer, Hani S. Mahmassani, Samer H. Hamdar, Alireza Talebpour

## Контекст Моделирование поведения автономных транспортных средств (АТС) является ключевым аспектом развития технологий автоматизированного транспорта. Одним из популярных источников данных для этого является Waymo Open Motion Dataset (WOMD). Он включает траектории движения, собранные при операциях Level 4 AV в Phoenix, Arizona. Тем не менее, WOMD имеет ограничения, такие как проприетарная обработка данных, отсутствие оценки ошибок и разбиение траекторий на отдельные клиппы 20 секунд. Эти ограничения поднимают вопросы о точности данных и возможности их использования для реалистичного моделирования поведения АТС. Целью данной работы является определение того, может ли WOMD поддерживать реалистичное моделирование поведения AV, используя сравнительный анализ с использованием данных из реальных операций. ## Метод Для проведения исследования использовалась связка из двух наборов данных: WOMD и собственно сборных данных Level 4 AV в Phoenix, Arizona. Для анализа различных сценариев движения, таких как разгрузка на светофорах, следование за автомобилем и смена полосы движения, были применены различные методы сравнения. Например, для определения расстояний между автомобилями в сценарии разгрузки были использованы видео-анализ и методы линейной интерполяции. Для сценариев следования и смены полосы применялся метод Simulation-Extrapolation (SIMEX) для учета ошибок в данных PHX, а также метод динамической войны времени (Dynamic Time Warping, DTW) для поиска различий в поведении. ## Результаты Анализ показал, что данные из WOMD не полностью соответствуют реальному поведению АТС в условиях города. Например, WOMD недостаточно представляет ситуации с короткими расстояниями между автомобилями и аварийными сценариями. Эти отклонения были выявлены во всех использованных сценариях движения. Например, в сценарии разгрузки, где использовались видео-данные для точного измерения расстояний, PHX данные показали более значительное количество кратковременных расстояний. Аналогично, в сценариях следования и смены полосы, SIMEX и DTW показали, что поведение в PHX значительно отличается от того, что зафиксировано в WOMD. ## Значимость Результаты имеют важное значение для улучшения моделей поведения AV. Недостаточная точность WOMD в представлении реального поведения транспортных средств может привести к неточным моделям, которые не учитывают реальную сложность и риск в условиях городского движения. Эта статья подчеркивает необходимость дополнительных исследований и валидации данных для повышения точности реалистичных моделей. ## Выводы Выводы исследования подтверждают, что WOMD может не полностью охватывать реальность городского транспортного поведения. Необхо

Annotation:

The Waymo Open Motion Dataset (WOMD) has become a popular resource for data-driven modeling of autonomous vehicles (AVs) behavior. However, its validity for behavioral analysis remains uncertain due to proprietary post-processing, the absence of error quantification, and the segmentation of trajectories into 20-second clips. This study examines whether WOMD accurately captures the dynamics and interactions observed in real-world AV operations. Leveraging an independently collected naturalistic d...

ID: 2509.03515v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY, stat.AP

arXiv PDF

📄 From Tabula Rasa to Emergent Abilities: Discovering Robot Skills via Real-World Unsupervised Quality-Diversity

2025-08-29

Авторы:

Luca Grillotti, Lisa Coiffard, Oscar Pang, Maxence Faldor, Antoine Cully

## Контекст Автоматическое развитие способностей роботов является ключевым заданием для создания универсальных и эффективных систем автономного робототехнического управления. Однако, современные методы требуют вмешательства человека для определения целей и параметров обучения. Такая зависимость от человеческого вмешательства ограничивает робота в своей способности адаптироваться к нестандартным и непредсказуемым ситуациям. Более того, обучение на физической робот-платформе требует крупных объемов данных и жесткого контроля за безопасностью, что затрудняет развитие эффективных методов для обнаружения многообразия возможных робот-ситуаций. Эта статья предлагает расширенный подход к самостоятельному развитию робот-способностей в реальном мире, который уменьшает необходимость вручную настраивать цели и ограничения. ## Метод Мы предлагаем метод, названный Unsupervised Real-World Skill Acquisition (URSA), расширенное расширение существующего Quality-Diversity Actor-Critic (QDAC). URSA объединяет механизм генерации разнообразия с автономным обнаружением робот-способностей в реальном мире, не требуя человеческого вмешательства. У нас есть две основные операции: 1) поиск потенциальных способностей робота в реальном мире с помощью новых техник оптимизации, и 2) поддержка этих способностей с помощью легковесного моделирования, которое позволяет роботу измерять эффективность своих действий. URSA также может работать в тех случаях, когда сбор данных должен быть быстрым и эффективным, чтобы обеспечить безопасность и высокую производительность. ## Результаты Мы провели эксперименты, в которых робот-управляемый Unitree A1 прошел специально сконструированные тесты в симуляции и реальном мире. Мы сравнивали URSA с тремя существующими методами, включая QDAC. Результаты показывают, что URSA не только выполняет достижение разнообразных робот-способностей, но и обеспечивает высокую производительность в обнаружении способностей в реальном мире. Например, URSA удалось выявить более 10 различных робот-способностей на Unitree A1, в том числе стойкость к повреждениям и повышенную локальную мобильность. Кроме того, URSA показал себя эффективнее всех остальных методов в сценариях с различными видами повреждений, из-за того, что он может адаптироваться к новым условиям без требования человеческого вмешательства. ## Значимость Наш метод может быть применен в различных сферах, включая автономное робототехническое управление, организацию производственных задач, а также в области роботов-компаньонов, которые должны самос

Annotation:

Autonomous skill discovery aims to enable robots to acquire diverse behaviors without explicit supervision. Learning such behaviors directly on physical hardware remains challenging due to safety and data efficiency constraints. Existing methods, including Quality-Diversity Actor-Critic (QDAC), require manually defined skill spaces and carefully tuned heuristics, limiting real-world applicability. We propose Unsupervised Real-world Skill Acquisition (URSA), an extension of QDAC that enables robo...

ID: 2508.19172v3 cs.RO, cs.AI, cs.LG

arXiv PDF

1
2
7
8
9
10
11

Показано 81 - 90 из 104 записей