📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Joint Flow Trajectory Optimization For Feasible Robot Motion Generation from Video Demonstrations

2025-09-26

Авторы:

Xiaoxiang Dong, Matthew Johnson-Roberson, Weiming Zhi

#### Контекст Узконаправленные методы, такие как телеоперация или кинезительное обучение, часто требуют дополнительных ресурсов или ручных усилий для обучения роботу выполнять задачи. Недавние развития в области machine learning позволяют использовать видео-демонстрации для обучения роботам. Однако, поскольку роботы-манипуляторы имеют другую анатомию и работоспособность в сравнении с людьми, необходимо разработать методы, которые могут соответствовать демонстрации, но при этом учитывать ограничения робота. Существуют проблемы с представлением ограничений, такими как невозможность выполнения некоторых движений в реальности, а также сложность в интерпретации и учете всех мод элементарных движений в демонстрациях. Из-за этих ограничений, целесообразно использовать новые подходы для оптимизации траекторий и позиций жесткости, которые могут обрабатывать данные демонстраций более эффективно. #### Метод Мы предлагаем **Joint Flow Trajectory Optimization (JFTO)** — кадровый метод оптимизации траекторий жестов, который применяется к задачам робот-манипулятора. Метод базируется на парадигме Learning-from-Demonstration (LfD), но в отличие от прямого копирования рукопашных движений, он рассматривает демонстрации как целевые объекты, направляющие робота в выборе подходящей жесткости и движений, необходимых для выполнения задачи. JFTO работает с тремя целями: (i) выбор эффективной жесткости и позиции робота, (ii) создание траектории, которая соответствует демонстрации, и (iii) учет ограничений робота, таких как коллизии и другие ограничения робота. Для моделирования разнообразия данных демонстраций мы расширяем подход **flow matching** в пространстве $\SE(3)$, что позволяет учитывать вероятности траекторий объектов и избегать mode collapse. Мы интегрируем все три цели в одну разностную функцию потерь, чтобы оптимизировать траектории в едином пространстве. #### Результаты Мы проводим эксперименты в симуляционной среде и реальном мире, используя разнообразные ситуации манипуляции. Полученные результаты показывают, что JFTO может работать в тесной связи с данными демонстраций и учитывать все ограничения в задаче. В реальном мире, мы используем набор данных, содержащий видео-демонстрации для задач, в которых нужно переместить предмет в указанном направлении. Метод JFTO показал высокую точность в поиске подходящих жесткостей и траекторий, а также сохранял высокую стабильность во время выполнения задачи. Особенно мощность JFTO проявляется в сложных сценариях, где требуется учет разнообразия движений и постоянного воздействия на ограничения робота. #### Значи

Annotation:

Learning from human video demonstrations offers a scalable alternative to teleoperation or kinesthetic teaching, but poses challenges for robot manipulators due to embodiment differences and joint feasibility constraints. We address this problem by proposing the Joint Flow Trajectory Optimization (JFTO) framework for grasp pose generation and object trajectory imitation under the video-based Learning-from-Demonstration (LfD) paradigm. Rather than directly imitating human hand motions, our method...

ID: 2509.20703v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 RobotDancing: Residual-Action Reinforcement Learning Enables Robust Long-Horizon Humanoid Motion Tracking

2025-09-26

Авторы:

Zhenguo Sun, Yibo Peng, Yuan Meng, Xukun Li, Bo-Sheng Huang, Zhenshan Bing, Xinlong Wang, Alois Knoll

#### Контекст Управление движением роботизированных роботов-трапецистов — одно из самых сложных и актуальных заданий в области машинного обучения и робототехники. Особенности данной области заключаются в том, что требуется высокая точность позиционирования и контроль динамики движений для выполнения сложных и динамичных задач. Однако, существующие подходы сталкиваются с проблемами, такими как зависимость от моделей, ошибки накопления и сложность в реальном времени. Эти проблемы приводят к проблемам в достижении высокого уровня точности и надёжности в движении. #### Метод Предлагаемый подход, RobotDancing, основан на методе резидентных действий в рамках обобщённого опыта обучения. Он предполагает использование нейронных сетей, которые предсказывают резидентные результаты вместо абсолютных значений управления. Это позволяет значительно улучшить точность и уменьшить погрешность накопления. Метод предлагает интегрированную архитектуру, включающую в себя алгоритм обучения, параметры регуляризации и методы передачи на реальную машину. Это гарантирует стабильность и эффективность в различных условиях. #### Результаты Запуски проводились на модели Unitree G1 с помощью retargeted LAFAN1 dance sequences. Результаты показали высокую точность в отслеживании движений, в том числе высоко-динамических, таких как прыжки, вращения и карвинги. Было продемонстрировано возможность трансфера симуляции на реальную машину без дополнительных подготовительных этапов. Особенностью результатов является то, что система может работать в реальном времени, даже при продолжительности движения до нескольких минут. #### Значимость Предложенный подход имеет широкие применения в робототехнике, в том числе для создания управления движением роботов-трапецистов и других систем динамического движения. Он обеспечивает высокую точность, надёжность и эффективность работы в реальном времени. Это может привести к развитию новых технологий в области систем управления, повышение точности в исполнении возможностей киберфизических систем, а также открытие новых возможностей в гуман-робот интеракции. #### Выводы Результаты показывают, что RobotDancing является перспективным подходом для решения проблем управления движением роботов-трапецистов. В будущем планируется расширить область применения, улучшив подходы к работе с ошибками и увеличив производительность. Направление будущих исследований также будет связано с оптимизацией алгоритмов и исследованием возможностей работы в сложных физических условиях.

Annotation:

Long-horizon, high-dynamic motion tracking on humanoids remains brittle because absolute joint commands cannot compensate model-plant mismatch, leading to error accumulation. We propose RobotDancing, a simple, scalable framework that predicts residual joint targets to explicitly correct dynamics discrepancies. The pipeline is end-to-end--training, sim-to-sim validation, and zero-shot sim-to-real--and uses a single-stage reinforcement learning (RL) setup with a unified observation, reward, and hy...

ID: 2509.20717v1 cs.RO, cs.AI

arXiv PDF

📄 Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

2025-09-26

Авторы:

Noah Geiger, Tamim Asfour, Neville Hogan, Johannes Lachner

#### Контекст Modern методы машинного обучения достигли значительных успехов в генерации моторных действий в информационной сфере. Однако взаимодействие с физическим окружением в энергетической сфере, особенно в случае контактно-богатых задач, остается сложной проблемой. Это обусловлено тем, что традиционные подходы не ориентированы на учет физических принципов взаимодействия, а именно на них закладывается основа Impedance Control. Он требует точной настройки задачно-связанных параметров импеданса, что затрудняет применение в ситуациях, требующих высокой адаптивности. Наше исследование фокусируется на создании структуры, которая объединяет моделирование в физической сфере и методы машинного обучения для генерации точных и адаптивных импедансных контроллеров. #### Метод Мы предлагаем Diffusion-Based Impedance Learning — универсальную архитектуру, которая включает в себя следующие компоненты. Первый этап — использование Transformer-based Diffusion Model, который обучается по данным симуляционных нулевых силовых траекторий (sZFT) с применением cross-attention к внешним векторам сил. Это позволяет модели генерировать в точности движение в трансляционном и вращательном пространствах. Для решения проблемы геометрической консистентности во вращательном пространстве мы вводим SLERP-based quaternion noise scheduler. Второй этап — обновление параметров импеданса (стиффнесс и демпфинг) с помощью energy-based estimator. Этот этап включает в себя дирекционный подход: контроллер уменьшает импеданс вдоль незадачных осей, оставляя высокую резистивность вдоль задачных направлений. Мы собирали данные в сценарии паркура и робототехнической терапии с помощью Apple Vision Pro. #### Результаты Проведенные эксперименты показали высокую эффективность метода. На данных, собранных в сценарии паркура, модель достигла суб-миллиметровой точности позиции и суб-динамической точности подвижных роботов. Модель показала успех в решении задачи подгонки в контактных контактовых задачах, в том числе поворотов и вставки эллиптических и цилиндрических точек, без предварительных демонстраций в обучающих данных. Это достигнуто благодаря возможности автоматической адаптации импеданса во время выполнения задачи. Уменьшенный размер модели позволил применять этот подход в реальном времени, в том числе с автоматическим корректированием динамики на KUKA LBR iiwa. #### Значимость Предложенный подход может быть применен в различных контактно-богатых задачах, в том числе в робототехнических терапиях, производственных процессах и распределенных системах с удаленным управлением. Он обеспечивает высокую точность и реактивность, объединяя моде

Annotation:

Learning methods excel at motion generation in the information domain but are not primarily designed for physical interaction in the energy domain. Impedance Control shapes physical interaction but requires task-aware tuning by selecting feasible impedance parameters. We present Diffusion-Based Impedance Learning, a framework that combines both domains. A Transformer-based Diffusion Model with cross-attention to external wrenches reconstructs a simulated Zero-Force Trajectory (sZFT). This captur...

ID: 2509.19696v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 An effective control of large systems of active particles: An application to evacuation problem

2025-09-26

Авторы:

Albina Klepach, Egor E. Nuzhin, Alexey A. Tsukanov, Nikolay V. Brilliantov

## Контекст Область управления активными частицами широко распространена в различных приложениях, таких как координация роботских зоодромов, управление группами роботов, управление группой людей в конфлюктных зонах и управление течением людей в катастрофных ситуациях. Для эффективного управления такими системами необходимо разработать методики управления, которые были бы значительно превосходными по сравнению с уже существующими, так как существующие методы часто не годятся для управления большими системами в реальном времени. Недостаток эффективных методов управления возникает из-за слишком большого числа действующих участников в системе, что приводит к проблемам в синхронизации и контроле. ## Метод В этой работе развита методика управления активными частицами, в основе которой лежит объединение реинфорсментного обучения с искусственными силовыми воздействиями на систему. Для описания поведения группы активных частиц в рамках этого подхода вводится усовершенствованная модель Вице. Эта модель учитывает новые функции, включая воздействия на систему отдельных участников, а также взаимодействие с лидером, который может способствовать эффективному управлению. Метод затем применяется к задаче эвакуации группы людей в условиях опасности. Реализация использует лидера, который руководит действиями других участников системы, чтобы улучшить процесс эвакуации. ## Результаты Используя предложенный подход, был проведен эксперимент на 80 участников, где проверена эффективность управления группой людей в условиях эвакуации. Анализ результатов показал, что применение усовершенствованного подхода позволяет достичь значительно лучших результатов по сравнению с традиционными методами, включая применение RL в оптимальной версии. Таким образом, введенная модель позволяет эффективно координировать движение системы, уменьшая время эвакуации и уменьшая вероятность локальных загромождений. ## Значимость Предложенный подход может быть применен в различных областях, включая управление роботскими зоодромами, управление группами людей в крупных массовых мероприятиях, управление группой людей в зонах с пожарами или другими опасными условиями. Основное преимущество этого подхода заключается в своей перспективной гибкости и реалистичности, что делает его подходящим для реальных ситуаций. Будущие исследования будут ориентированы на улучшение модели, включая факторы, такие как влияние динамических условий и более сложные сценарии. ## Выводы Данная работа продемонстрировала, что исполь

Annotation:

Manipulation of large systems of active particles is a serious challenge across diverse domains, including crowd management, control of robotic swarms, and coordinated material transport. The development of advanced control strategies for complex scenarios is hindered, however, by the lack of scalability and robustness of the existing methods, in particular, due to the need of an individual control for each agent. One possible solution involves controlling a system through a leader or a group of...

ID: 2509.19972v1 cs.RO, cs.AI

arXiv PDF

📄 Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

2025-09-26

Авторы:

Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang

## Контекст Современные автономные системы движения сталкиваются с рядом сложностей в обеспечении безопасности и эффективности поведения в реальном мире. Одним из ключевых аспектов является точная интерпретация информации среды, чтобы сформировать безопасные и оптимальные маршруты. Vision-Language-Action (VLA) модели, основанные на технологиях Vision-Language Models (VLMs), представляют собой отражение этой сложности, которая включает в себя глубокую интеграцию визуального, языкового и действительного пространства. Однако существующие подходы часто страдают от ограниченности имитационного обучения, недостаточной внедрения физических правил и высокой сложности в построении безопасных маршрутов. Наша работа ориентируется на решение этих проблем, особенно в условиях безопасности движения. ## Метод Мы предлагаем ReflectDrive, новую архитектуру, основанную на дискретной диффузии для рефлективного видения-языкового-действительного моделирования. Метод включает в себя несколько ключевых элементов: 1. **Дискретизация действительного пространства**: Мы превращаем двухмерное пространство вокруг автомобиля в кодебук действий, что позволяет использовать прогностические модели языка для планирования. 2. **Отражение (Reflection)**: Мы ввели безопасность-акцентированный механизм, который исправляет потенциальные неточности без необходимости расчетов производных. Этот механизм работает в цикле, применяя самокоррекцию. 3. **Целесообразное траекторирование**: Мы используем условное траекторирование, чтобы обеспечить многомодальность поведения. 4. **Локальный поиск**: Мы применяем локальный поиск для определения небезопасных токенов и используем интерполяцию для исправления. ## Результаты Мы провели эксперименты на NAVSIM, отражающем реальные условия автономного вождения. ReflectDrive показал существенные преимущества в сравнении с другими методами, особенно в сфере безопасности. Мы измерили следующие критерии: - **Безопасность**: ReflectDrive значительно снижает количество небезопасных ситуаций. - **Эффективность**: Метод работает быстрее, чем альтернативы, благодаря использованию дискретных моделей. - **Точность**: Результаты показали значительное улучшение в планировании маршрутов. ## Значимость Выводы данной работы могут быть применены в различных областях, включая автономную транспортную систему, системы безопасности дорог и управление роботами. Основные преимущества: - **Безопасность**: Метод предлагает новую модель для безопасного планирования маршрутов. - **Эффективность**: Использование дискретных моде

Annotation:

End-to-End (E2E) solutions have emerged as a mainstream approach for autonomous driving systems, with Vision-Language-Action (VLA) models representing a new paradigm that leverages pre-trained multimodal knowledge from Vision-Language Models (VLMs) to interpret and interact with complex real-world environments. However, these methods remain constrained by the limitations of imitation learning, which struggles to inherently encode physical rules during training. Existing approaches often rely on ...

ID: 2509.20109v1 cs.RO, cs.AI, cs.CL

arXiv PDF

📄 AnchDrive: Bootstrapping Diffusion Policies with Hybrid Trajectory Anchors for End-to-End Driving

2025-09-26

Авторы:

Jinhao Chai, Anqing Jiang, Hao Jiang, Shiyi Mu, Zichong Gu, Shugong Xu

################################################# ## Контекст ################################################# End-to-end multi-modal planning является переломным подходом в области автономного вождения, позволяя эффективно решать проблемы биохронизма и улучшать общую универсальность решений в сложных, редких сценариях. Однако, существующие модели часто страдают от высокого компьютерного времени, что затрудняет их применение в реальном времени. Для решения этой проблемы необходимо разработать эффективный метод, который бы сочетал высокую общую универсальность с более эффективным вычислительным процессом. ################################################# ## Метод ################################################# Мы предлагаем AnchDrive, фреймворк для энд-то-энд-вождения, который эффективно использует diffusion policy для уменьшения вычислительной сложности традиционных генерирующих моделей. Наш планировщик инициализируется набором гибридных анкоров (анкоров), включая статические привычки движения и динамические, контекстно-зависимые траектории. Обработка динамических траекторий осуществляется в реальном времени через Transformer, обрабатывающий плотные и разреденные пространственно-временные признаки. Диффузионная модель далее уточняет эти анкоры, предсказывая распределение смещений траекторий, что позволяет добиться тонкой регулировки. Этот подход делает возможным эффективное сгенерировать разнообразие и качественные траектории. ################################################# ## Результаты ################################################# Мы проверили AnchDrive на NAVSIM-benchmark, который показал новую рекордную производительность и выдал значительный прогресс в области общей универсальности. Модель показала способность эффективно решать проблемы редких сценариев, демонстрируя улучшение в сравнении с другими аналогами. Эксперименты подтвердили, что использование гибридных анкоров и диффузионной модели эффективно уменьшает вычислительный вес и повышает результаты общей генерализации. ################################################# ## Значимость ################################################# AnchDrive приложение возможно в различных сферах, включая автономную автомобильную технику, где необходима общая универсальность и надежность в разных условиях. Одним из основных преимуществ является высокая производительность и эффективность, что позволяет использовать модель в реальном времени. Это может оказаться ключевым фактором для повышения безопасности и эффективности движения в автономных системах. ################################################# ## Выводы ################################################# Мы представили AnchDrive, фреймворк, который позволяет эффективно решать проблемы высокой сложности в энд-то-энд-вождении. Наши результаты показали значительные достижения в области общей универсальности и разнообразия траекторий. Мы планируем дальнейшие исследования для улучшения динамического анализа и совершенствования алгоритма для более сложных сценариев

Annotation:

End-to-end multi-modal planning has become a transformative paradigm in autonomous driving, effectively addressing behavioral multi-modality and the generalization challenge in long-tail scenarios. We propose AnchDrive, a framework for end-to-end driving that effectively bootstraps a diffusion policy to mitigate the high computational cost of traditional generative models. Rather than denoising from pure noise, AnchDrive initializes its planner with a rich set of hybrid trajectory anchors. These...

ID: 2509.20253v1 cs.RO, cs.AI

arXiv PDF

📄 No Need for Real 3D: Fusing 2D Vision with Pseudo 3D Representations for Robotic Manipulation Learning

2025-09-25

Авторы:

Run Yu, Yangdi Liu, Wen-Da Wei, Chen Li

#### Контекст В последние годы видение-на-действие (vision-based robotic manipulation) стало одной из самых активных областей исследований в робототехнике. Оно открывает путь к улучшению интерактивности и управляемости роботов, позволяя им выполнять сложные задачи в реальном времени. Однако существуют значительные проблемы, связанные с наиболее распространенными подходами. Методы, основанные на 2D изображениях, хотя широко используются, часто страдают от ограниченной способности понимать 3D-пространство. Методы, основанные на 3D-представлениях (например, 3D-точечных массивов), значительно улучшают понимание пространства, но требуют высоких затрат на сбор и обработку 3D-данных, что существенно ограничивает их применение в реальном мире. Таким образом, необходимо разработать подход, который мог бы объединить преимущества визуального восприятия в 2D и 3D-информацию, однако без стоимостных затрат, связанных с последним. #### Метод Мы предлагаем фреймворк с названием NoReal3D, который объединяет в себе мощь визуального восприятия и синтетических 3D-представлений. На сердце этого фреймворка лежит 3DStructureFormer — модуль, преобразующий монокулярные изображения в многомерные псевдо-точечные массивы. Эти псевдо-точечные массивы сохраняют ключевые геометрические и топологические свойства точечных массивов, позволяя их использовать для более точного понимания пространства. Мы также разработали специальный псевдо-точечный массив-энкодер, который позволяет сохранять эти свойства во время обучения. Для обеспечения эффективной интеграции 2D и 3D-данных, мы исследовали различные стратегии фьюзинга фичей, чтобы улучшить общую точность и устойчивость модели. Наш подход позволяет избежать сложностей, связанных с сбором реальных 3D-данных, что делает его отличным вариантом для реального применения. #### Результаты Мы провести подробные эксперименты на различных задачах робототехники, включая п selecting , object placement, и object rearrangement. Для этого мы использовали широкий набор данных, включающий как синтетические, так и реальные 2D-изображения, а также синтетические 3D-точечные массивы. Наши результаты показали, что NoReal3D достигает той же, или даже вышей, эффективности, чем методы, основанные на 3D-точечных массивах, при этом не требуя сбора реальных данных 3D. Это указывает на высокую степень общей обучаемости и робастности нашего подхода. Также мы провели анализ различных стратегий фьюзинга, чтобы продемонстрировать, как они влияют на поведение системы. #### Значимость Наш подход имеет зна

Annotation:

Recently,vision-based robotic manipulation has garnered significant attention and witnessed substantial advancements. 2D image-based and 3D point cloud-based policy learning represent two predominant paradigms in the field, with recent studies showing that the latter consistently outperforms the former in terms of both policy performance and generalization, thereby underscoring the value and significance of 3D information. However, 3D point cloud-based approaches face the significant challenge o...

ID: 2509.16532v1 cs.RO, cs.AI

arXiv PDF

📄 TranTac: Leveraging Transient Tactile Signals for Contact-Rich Robotic Manipulation

2025-09-25

Авторы:

Yinghao Wu, Shuhong Hou, Haowen Zheng, Yichen Li, Weiyi Lu, Xun Zhou, Yitian Shao

## Контекст Современные роботизированные системы для тонких манипуляций часто сталкиваются с ограничениями в осуществлении точных действий, особенно когда визуальная перцепция не может уловить незначительные изменения в положении объекта. Например, в таких задачах, как вставка ключа в замок или подключение USB-устройства, визуальные системы могут недостаточно чувствительны к вибрациям и контактным сигналам, необходимым для точного контроля. Это приводит к неточностям, необходимости повторных попыток и потере времени. Было предложено использовать объемные сенсоры, но они либо медленны, либо требуют слишком много ресурсов. TranTac предлагает решение этой проблемы, объединяя эффективность, точность и недорогие материалы для решения таких задач. ## Метод TranTac основывается на интеграции 6-осевого инерциального измерительного устройства (IMU) в полимерные части робот-гриппера. Этот сенсор наблюдает динамические изменения в положении объекта в течение десятков микросекунд, что позволяет измерить малые движения, невидимые для визуального сенсора. Модель также включает в себя transformer-based encoders, которые обрабатывают данные IMU, и diffusion policy, позволяющую роботу динамически корректировать положение объекта. Эта модель имитирует человеческие движения при вставке, используя динамические корректировки, основанные на временных сенсорных сигналах. ## Результаты TranTac протестирована на вставке примесей, ключей и USB-устройств. Она достигла высокой успешности во вставке с незначительными ошибками, даже если визуальная система не смогла обнаружить несоответствия. Помимо этого, робот смог правильно распознавать контактные точки и корректировать свое положение при наличии видимых деформаций. Также был проведен тест на общую гибкость: после обучения на одной паре отверстий и объекта, TranTac успешно выполнила задачи на неизвестных объектах с чуть менее 70% успешностью. ## Значимость Наиболее заметные преимущества TranTac заключаются в ее способности использовать минимальное количество данных для точного управления, что делает ее привлекательной для систем с ограниченными ресурсами. Ее можно применять в сфере robot-саунд, где точность и эффективность сенсорных сигналов критичны. Эта модель также может быть применена в реальных ситуациях, таких как туннельные инструменты для медицинских целей или роботы для сборки тонких соединений. Такое решение может существенно улучшить точность и эффективность манипуляций в технических задачах. ## Выводы TranTac достигла значительных успехов в области тонких манипуляций, показав способность корректировать положение объекта с помощью

Annotation:

Robotic manipulation tasks such as inserting a key into a lock or plugging a USB device into a port can fail when visual perception is insufficient to detect misalignment. In these situations, touch sensing is crucial for the robot to monitor the task's states and make precise, timely adjustments. Current touch sensing solutions are either insensitive to detect subtle changes or demand excessive sensor data. Here, we introduce TranTac, a data-efficient and low-cost tactile sensing and control fr...

ID: 2509.16550v1 cs.RO, cs.AI, cs.SY, eess.SY

arXiv PDF

📄 PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

2025-09-25

Авторы:

Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li

#### Контекст Робототехнические политики манипуляций часто сталкиваются с проблемой необходимости учитывать много факторов одновременно: где следует обратить внимание, какие действия предпринять и как их реализовать. Это приводит к сложностям в обеспечении широкой общимости политик. Мы предлагаем, что высокоуровневое разумование, касающееся где и что необходимо делать, может быть вынесено в системы визуального понимания языка (Vision-Language Models, VLMs), чтобы политики могли сосредоточиться на выполнении действий. Это решение может поднять уровень гибкости и эффективности таких систем. #### Метод Мы представляем PEEK (Policy-agnostic Extraction of Essential Keypoints) — метод, который ознакомляет VLMs с целью идентификации точечных представлений. Эти представления включают 1. маршруты для кинематических движений конечности робота (ключевые точки, указывающие, что делать), и 2. задачу-связанные маски (ключевые точки, указывающие, где обратить внимание). Эти представления являются преобразованными от работы VLMs и могут быть напрямую использованы в качестве входных данных для роботных систем. Для эффективного обучения, мы разработали автоматизированную аннотационную систему, которая производит метки для 20+ датасетов, представляющих собой различные роботы с разными характеристиками, включая 9 внешних видов. #### Результаты Мы провели эксперименты на множестве реальных и симуляционных данных, подтвердив эффективность PEEK. На тестировании в реальной жизни, PEEK повысил общим результат 3D-политики, обученной только в симуляции, на 41.4 раз в реальном мире. Также были получены улучшения в диапазоне 2-3.5 раз для двух других классов роботов, включая большие системы и малые манипуляторы. PEEK обеспечивает улучшение возможностей политик манипуляции, снижая необходимость в ручной настройке и предоставляя минимальные ключевые данные для потенциального успеха. #### Значимость PEEK может применяться в различных областях, где требуется робототехническая манипуляция. Он позволяет сократить динамическую нагрузку на системы, оптимизируя их работу по значимым задачам. Благодаря подходу PEEK, возможности роботов возрастают за счет использования VLMs для освоения семантики и визуальной сложности, что дает политикам простоты управления. #### Выводы Мы продемонстрировали, что PEEK может значительно улучшить возможности общимости робототехнических политик с помощью VLMs. Наши результаты открывают новые пути для будущих исследований в области обобщения политик манипуляций, в том числе исследований в области развития V

Annotation:

Robotic manipulation policies often fail to generalize because they must simultaneously learn where to attend, what actions to take, and how to execute them. We argue that high-level reasoning about where and what can be offloaded to vision-language models (VLMs), leaving policies to specialize in how to act. We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which fine-tunes VLMs to predict a unified point-based intermediate representation: 1. end-effector paths specifying wha...

ID: 2509.18282v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Assistive Decision-Making for Right of Way Navigation at Uncontrolled Intersections

2025-09-25

Авторы:

Navya Tiwari, Joseph Vazhaeparampil, Victoria Preston

## Контекст Право выезда на неконтролируемых перекрестках остается одной из самых нестабильных ситуаций на дорогах, приводящих к значительному числу транспортных происшествий. Эти ситуации связаны с неясностью правил преимущества, косностью ограждений видимости и непредсказуемым поведением водителей. Исследования по автоматизированным системам управления транспортом уделяют внимание неопределенности в решающих процессах. Однако существуют мало систем, которые могут расширять функционал существующих автомобилей, обеспечивая их поддержку в непонятных ситуациях. Наша статья предлагает рамку для помощи в принятии решений для правого выезда на неконтролируемых перекрестках, основанную на Partially Observable Markov Decision Process (POMDP). Мы используем симулятор с разнообразными сценариями, включая статические и динамические обстановки, для оценки различных алгоритмов. ## Метод Мы описываем разработанную рамку для помощи в принятии решений для непонятных ситуаций в неконтролируемых перекрестках. Наш POMDP-планер включает в себя этапы сбора данных, расчета вероятностей и принятия решений. Мы разрабатываем пользовательский симулятор, включающий разнообразные сценарии, такие как статические препятствия, динамические обстановки с движущимися агентами и тротуары с пешеходами. Кроме того, мы разрабатываем несколько алгоритмов, включая Deterministic Finite State Machine (DFSM), QMDP, POMCP и DESPOT. Наша цель заключается в сравнении различных подходов в условиях разных уровней неопределенности. ## Результаты Мы проводим эксперименты в симуляторе с различными уровнями сложности, в том числе статические и динамические сценарии. Мы проверяем качество планирования на основе количества коллизий и прохождения времени. Общее число экспериментов покрывает сотни ситуаций, включая случаи с ограниченной видимостью и угрозами. Наши результаты показывают, что проблематичными являются ситуации с неопределенностью, но подходы, основанные на POMDP, позволяют достичь более высокой стабильности и безопасности. Мы также выявляем, что POMCP демонстрирует лучший баланс между безопасностью и эффективностью, в то время как DESPOT применяется для более быстрого варианта расчета. ## Значимость Мы показываем, что наш подход может быть эффективно использован в автомобильных системах помощи водителям. Мы подчеркиваем, что систематическое использование неопределенности позволяет улучшить безопасность на дорогах. Наши результаты могут быть использованы в разработке систем помощи водителям, особенно в условиях непредсказуемости

Annotation:

Uncontrolled intersections account for a significant fraction of roadway crashes due to ambiguous right-of-way rules, occlusions, and unpredictable driver behavior. While autonomous vehicle research has explored uncertainty-aware decision making, few systems exist to retrofit human-operated vehicles with assistive navigation support. We present a driver-assist framework for right-of-way reasoning at uncontrolled intersections, formulated as a Partially Observable Markov Decision Process (POMDP)....

ID: 2509.18407v1 cs.RO, cs.AI, cs.HC

arXiv PDF

1
2
31
32
33
34
35
54
55

Показано 321 - 330 из 544 записей