📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Drive As You Like: Strategy-Level Motion Planning Based on A Multi-Head Diffusion Model

2025-08-27

Авторы:

Fan Ding, Xuewen Luo, Hwa Hui Tew, Ruturaj Reddy, Xikun Wang, Junn Yong Loo

#### Контекст В последние годы в области мобильных роботов и автоматизированных транспортных систем прогресс поднимает требования к моделям планирования движения. Исследования концентрируются на повышении качества траекторий, которые должны быть как высококачественными, так и устойчивыми в процессе реальных задач. Однако многие существующие модели после обучения фиксируют свою политику, что приводит к последовательности решений, но связывает их с ограниченной гибкостью. Таким образом, необходимо развитие моделей, которые могут адаптироваться к разным ситуациям, отражая желания пользователей и отзывчивость к динамичным условиям. #### Метод Предлагаемая модель «М-диффузионный планировщик траекторий» (M-diffusion planner) основывается на подходе диффузионных моделей с несколькими задачами (multi-head). Задачами здесь являются вывод траекторий, отвечающих различным политикам. В первом этапе обучения все задачи используют общие веса для обучения высококачественных траекторий. Далее, используя характеристики процесса диффузии, метод Group Relative Policy Optimization (GRPO) вносит гибкость в поведение модели, позволяя ей отвечать разным сценариям. На этапе инференса внедряется большой языковой модель (LLM), которая выбирает подходящую политику в зависимости от поставленных условий. #### Результаты Для оценки предложенного подхода проведены замкнутые циклы симуляций и открытые эксперименты. Модель подверглась анализу на установленном наборе данных, и ее поведение было сравнено с другими альтернативными методами. Эксперименты показали, что предложенная модель сохраняет высокую точность планирования (SOTA в nuPlan val14 benchmark) и значительно улучшает разнообразие траекторий, демонстрируя удовлетворительное соответствие желаниям пользователей. #### Значимость Предложенный подход может быть применен в различных сценариях, включая автоматизированные транспортные системы, вождение роботов и другие области, требующие гибкого планирования движения. Он позволяет динамически адаптироваться к задачам, оптимизируя политики в реальном времени. Такая гибкость делает модель более универсальной и эффективной в среднесрочной и долгосрочной перспективе. #### Выводы Исследования показали, что M-diffusion planner достигает SOTA в планировании движения, обеспечивая качественно высокие траектории и разнообразие поведения. Будущие исследования будут сконцентрированы на расширении модели для обработки более сложных сценариев, включая проблемы с разными уровнями доверия и дополнительными внешними контекстами.

Annotation:

Recent advances in motion planning for autonomous driving have led to models capable of generating high-quality trajectories. However, most existing planners tend to fix their policy after supervised training, leading to consistent but rigid driving behaviors. This limits their ability to reflect human preferences or adapt to dynamic, instruction-driven demands. In this work, we propose a diffusion-based multi-head trajectory planner(M-diffusion planner). During the early training stage, all out...

ID: 2508.16947v1 cs.RO, cs.AI

arXiv PDF

📄 LLM-based Human-like Traffic Simulation for Self-driving Tests

2025-08-27

Авторы:

Wendi Li, Hao Wu, Han Gao, Bing Mao, Fengyuan Xu, Sheng Zhong

## Контекст Обеспечение реалистичной динамики трафика является кллючевым условием для эффективного тестирования систем самоуправления на дорогах. Исходя из того, что большинство дорожных пользователей являются людьми, воспроизведение их разнообразных поведенческих характеристик в симуляторах является ключевой задачей для реалистичных тестов. Существующие решения, основанные либо на ручной настройке генерируемых сценариев, либо на ограниченных моделях, основанных на данных, могут только разбить реальное поведение на части, не предоставляя полноты и интерпретируемости результатов. Данная работа призвана исследовать новый подход, основывающийся на использовании теории поведения и технологий больших языковых моделей (LLM) для создания более точных и интерпретируемых моделей трафика. ## Метод Предлагаемая методология разрабатывается в рамках моделирования трафика с помощью теории поведения и внедрения больших языковых моделей. Основная идея заключается в использовании глубокой аналитики субъективных представлений о трафике в сочетании с обучением больших моделей на текстовых данных. Модель трафика, основанная на способности людей оценивать ситуации на дороге, использует LLM для генерации сценариев, которые могут быть интегрированы с существующими симуляционными платформами. Такая модель основывается на двух ключевых компонентах: (i) моделировании поведения с учетом стратегии вождения и (ii) использовании LLM для определения социальных и динамических факторов, влияющих на поведение драйверов. ## Результаты Экспериментальные тесты показали, что интеграция предложенной модели в симуляционные платформы улучшила показатели безопасности, увеличив чувствительность к ситуациям, рискованным для самоуправляемых автомобилей, на 68%. Был доказан высокий уровень реалистичности генерируемых сценариев с точки зрения интерпретируемости происшествий и степени реалистичности движения. Более того, модель продемонстрировала более разнообразные стили вождения и увеличение времени реакции на нестандартные ситуации. ## Значимость Предлагаемый подход может быть использован в различных ситуациях, где необходимо моделирование трафика с высокой точностью. Благодаря своему возможности интегрироваться с существующими симуляторами, он может способствовать более эффективному тестированию самоуправляемых транспортных средств. Также, в результате его использования возможно сокращение времени разработки и увеличение безопасности работы подобных систем в реальных условиях. ## Выводы

Annotation:

Ensuring realistic traffic dynamics is a prerequisite for simulation platforms to evaluate the reliability of self-driving systems before deployment in the real world. Because most road users are human drivers, reproducing their diverse behaviors within simulators is vital. Existing solutions, however, typically rely on either handcrafted heuristics or narrow data-driven models, which capture only fragments of real driving behaviors and offer limited driving style diversity and interpretability....

ID: 2508.16962v1 cs.RO, cs.AI

arXiv PDF

📄 Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

2025-08-27

Авторы:

Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker

## Контекст Легкоходные роботы, оборудованные руками, представляют собой мощный инструмент для решения задач в сложных и нестанционарных условиях. Однако достижение точных и адаптивных захватов остается сложной задачей, требующей значительных усилий в области калибровки и предварительной настройки. Эти ограничения существенно сужают потенциал роботов в различных сферах, включая промышленность, поисковые и спасательные операции. Целью настоящего исследования является разработка методологии, позволяющей улучшить точность и адаптивность захвата, используя глубокое обучение и симуляционные модели. ## Метод Разработанная методология основывается на методе sim-to-real, который минимизирует необходимость постоянного применения физических данных. Для этого был создан симуляционный модельный пайплайн в среде Genesis. Модель генерирует набор данных, включающий пиксельно аннотированные карты качества захвата, используя RGB, дебатские карты и другие источники данных. Затем эти данные использовались для тренировки настраиваемой модели CNN с архитектурой U-Net. Эта модель оценивает качество захвата, выдавая графический heatmap с оптимальным точкой захвата. ## Результаты Разработанный подход был протестирован на роботе с четырьмя ногами. Результаты показали, что робот может самостоятельно назначить маршрут к мероприятию, определить позицию объекта с помощью RGB и дебатских карт, сгенерировать оптимальную точку захвата с помощью глубокого обучения, а затем выполнить точный захват. Эксперименты продемонстрировали эффективность разработанной системы в решении сложных задач захвата в реальном мире. ## Значимость Разработанная методология открывает новые возможности для расширения практического применения легкоходных роботов в таких областях, как промышленность, автоматизация, поисковые и спасательные операции. Основное преимущество заключается в своей способности обучаться на симуляционных моделях и применять это в реальном мире, что значительно сокращает время настройки и развитие новых приложений. ## Выводы Результаты исследования подтверждают, что систематическое использование моделей глубокого обучения в сочетании с симуляционными моделями может улучшить возможности захвата легкоходных роботов. Будущие исследования будут направлены на расширение области применения методологии и увеличение точности захвата в различных средах.

Annotation:

Quadruped robots have emerged as highly efficient and versatile platforms, excelling in navigating complex and unstructured terrains where traditional wheeled robots might fail. Equipping these robots with manipulator arms unlocks the advanced capability of loco-manipulation to perform complex physical interaction tasks in areas ranging from industrial automation to search-and-rescue missions. However, achieving precise and adaptable grasping in such dynamic scenarios remains a significant chall...

ID: 2508.17466v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 LodeStar: Long-horizon Dexterity via Synthetic Data Augmentation from Human Demonstrations

2025-08-27

Авторы:

Weikang Wan, Jiawei Fu, Xiaodi Yuan, Yifeng Zhu, Hao Su

## Контекст Роботические системы способные выполнять длительные манипуляционные задачи с роботом-человеческой гранулярностью требуют значительных усилий в разработке. Эти задачи обычно включают не только физическую гранулярность, но также гладкую последовательность манипулятивных навыков, а также высшую приспособленность к изменениям в среде. Имитационное обучение позволяет захватить знания от человеческих демонстраций, однако получение богатых данных для этих целей является ресурсозатратным. В данной работе предлагается LodeStar — рамка для автоматической декомпозиции демонстраций на понятные семантическими навыки и создания произвольных демонстрационных наборов с помощью генеративных методов глубокого обучения. Этот подход позволяет значительно улучшить исполнение задач. ## Метод LodeStar автоматически декомпозирует демонстрации на семантические навыки с помощью off-the-shelf моделей глубокого обучения. Далее, для разнообразия демонстраций используется обобщающее обучение с подкреплением (RL). Накопленные данные используются для обучения навыков в рамках модели Skill Routing Transformer (SRT). SRT эффективно склеивает навыки в цепочки для выполнения долгосрочных манипуляционных задач. Этот подход оптимизирован для обработки изменений в среде и позволяет добиться высокой гранулярности и долгосрочной логики. ## Результаты Работа была протестирована на трех сложных задачах реального мира: извлечение объекта из комплексной среды, одноручное выкручивание крышки и многоручное выкручивание крышки. Эксперименты вы mosted, что LodeStar значительно улучшает производительность и устойчивость в сравнении с существующими методами. Обучение на синтетических данных позволило значительно увеличить точность и скорость обучения в сравнении с данными, полученными непосредственно с человека. ## Значимость Предлагаемый подход имеет широкое применение в различных сферах, включая автоматизацию производственных процессов, управление роботами в сложных средах и помощь людям с ограниченными возможностями. Основные преимущества LodeStar заключаются в своей объемности, гибкости и возможности использования небольшого набора демонстраций для обучения. Будущие исследования будут нацелены на улучшение точности и скорости обучения, а также на подключение к более сложным задачам, включая те, что требуют взаимодействия с людьми. ## Выводы LodeStar демонстрирует успешную имплементацию новизны в обучении роботов для выполнения длительных манипуляционных задач. Этот подход позволяет эффективно обучать роботов на основе небольшого числа демонстраций, значительно повышая точность и устойчивость испо

Annotation:

Developing robotic systems capable of robustly executing long-horizon manipulation tasks with human-level dexterity is challenging, as such tasks require both physical dexterity and seamless sequencing of manipulation skills while robustly handling environment variations. While imitation learning offers a promising approach, acquiring comprehensive datasets is resource-intensive. In this work, we propose a learning framework and system LodeStar that automatically decomposes task demonstrations i...

ID: 2508.17547v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

2025-08-27

Авторы:

Guanxing Lu, Baoxiong Jia, Puhao Li, Yixin Chen, Ziwei Wang, Yansong Tang, Siyuan Huang

#### Контекст Улучшение производительности роботов в задачах робототехнического манипулирования является ключевым подходом для решения широкого круга задач, от производственной автоматизации до помощи роботам в домашних условиях. Однако традиционные подходы, основанные на наблюдениях и действиях в реальном мире, требуют больших объемов данных и долгого обучения, что делает их неэффективными. Одним из продвинутых подходов является обучение роботов в мире моделей, где среда окружающего мира представляется в виде мировой модели. Однако существующие мировые модели часто используют мозговые хаки или генерируют недостаточно точные представления. Наша модель, Gaussian World Model (GWM), предлагает развитие этого подхода, используя принципы гауссовых процессов для точного предсказания будущих сцен. #### Метод GWM использует **diffusion transformer**, который основывается на принципах гауссовых процессов для предсказания будущих сцен. Модель 3D-вариационного автокодировщика позволяет визуально представить сцены, а трансформер обеспечивает точное представление. Была предложена концепция **Gaussian Splatting**, которая позволяет генерировать 3D-сцены с большой контрастностью и оптимальным использованием ресурсов. Таким образом, GWM может генерировать точные представления трехмерной среды, что необходимо для улучшения стратегии робота. #### Результаты Мы провели эксперименты в симуляции и реальном мире, используя различные сцены и действия. Результаты показали, что GWM может предсказывать точные сцены с учетом различных действий робота. Эти предсказания имеют низкую ошибку и повторяемость. Мы также провели сравнение с другими моделями, и результаты показали, что GWM превосходит их в предсказании точности и времени обработки. Наша модель предоставила значительное улучшение в параметрах качества и эффективности. #### Значимость GWM может быть применена в различных областях, включая имитационное обучение, моделирование визуальных сцен, прогнозирование дальнейшего поведения робота. Она предоставляет высокую точность и эффективность, что делает ее полезной в развитии моделей манипулирования. Кроме того, GWM может быть использована в качестве робототехнического симулятора, что повышает производительность. Это открывает новые возможности для решения задач в связи с роботом, что делает GWM ключевым инструментом в этой области. #### Выводы Мы представили новую модель, GWM, которая значительно улучшила точность предсказания будущих сцен в робототехническом манипулировании. Мы также продемонстрировали значительные преимущества GWM по сравнению с другими моделями.

Annotation:

Training robot policies within a learned world model is trending due to the inefficiency of real-world interactions. The established image-based world models and policies have shown prior success, but lack robust geometric information that requires consistent spatial and physical understanding of the three-dimensional world, even pre-trained on internet-scale video sources. To this end, we propose a novel branch of world model named Gaussian World Model (GWM) for robotic manipulation, which reco...

ID: 2508.17600v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Talking to Robots: A Practical Examination of Speech Foundation Models for HRI Applications

2025-08-27

Авторы:

Theresa Pekarek Rosin, Julia Gachot, Henri-Leon Kordt, Matthias Kerzel, Stefan Wermter

## Контекст В статье рассматриваются вопросы использования систем автоматического распознавания речи (ASR) в контексте взаимодействия человека с роботом (HRI). Авторы подчеркивают, что в реальных условиях работы ASR сталкиваются с недостатками качества аудиопотока, влиянием экологических факторов, разнообразием пользователей и требованиями к реакции на сложные типы речи. Эти аспекты создают специфические вызовы для HRI, где ошибки распознавания могут привести к проблемам в выполнении задач, понижению доверия пользователей и угрозам безопасности. Цель работы — оценить потенциал современных ASR-систем в HRI, а также выявить их ограничения и биазы. ## Метод Исследование основывается на экспериментальном подходе, включающем оценку четырех современных ASR-систем на основе данных из восьми публичных баз данных, представляющих шесть типов сложности: доменно-специфическая, с акцентом, шумная, возрастно-варьирующаяся, имеющая империя, и спонтанная речь. Модели распознавания выслушивались на примере различных типов речи, окружающих технологии в HRI, что позволило выявить различия в их поведении в разных условиях. Техническая архитектура ASR-систем и методы их оценки были выбраны с учетом требований к точности и устойчивости в HRI. ## Результаты Результаты вы most significant variations in performance, hallucination tendencies, and inherent biases, despite similar scores on standard benchmarks. These limitations have serious implications for HRI, where recognition errors can interfere with task performance, user trust, and safety. ## Значимость Полученные результаты имеют значительные потенциальные применения в разработке более надежных и универсальных систем взаимодействия человек-робот. ASR-системы, эффективно работающие в различных условиях, могут существенно улучшить удобство и безопасность HRI. Данные работы могут повлиять на оптимизацию моделей распознавания и их применение в реальных сценариях, включая роботизированные дома, промышленность и здравоохранение. ## Выводы Авторы выводят, что несмотря на прогресс в развитии ASR, существуют серьезные ограничения, которые необходимо устранить для эффективного применения в HRI. Будущие исследования будут сосредотачиваться на улучшении устойчивости моделей к шуму, разнообразию речи и ситуационным сложностям. Также планируется расширение использования наборов данных для более широкой оценки и улучшения ASR-систем. Эти улучшения имеют важное значение для развития надежных и безопасных систем HRI.

Annotation:

Automatic Speech Recognition (ASR) systems in real-world settings need to handle imperfect audio, often degraded by hardware limitations or environmental noise, while accommodating diverse user groups. In human-robot interaction (HRI), these challenges intersect to create a uniquely challenging recognition environment. We evaluate four state-of-the-art ASR systems on eight publicly available datasets that capture six dimensions of difficulty: domain-specific, accented, noisy, age-variant, impair...

ID: 2508.17753v1 cs.RO, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Adaptive Output Steps: FlexiSteps Network for Dynamic Trajectory Prediction

2025-08-27

Авторы:

Yunxiang Liu, Hongkuo Niu, Jianlin Zhu

## Контекст В динамически изменяющихся средах, таких как автономное вождение, робототехника и умные системы принятия решений, точная прогнозирование траекторий находится в центре внимания. Традиционные модели, обычно, привязаны к прогнозу с запланированным временем выхода, что ограничивает их гибкость в реальных условиях. Это отражается в недостатке адаптивности в отношении изменения размера и сложности траекторий. Наша модель FlexiSteps Network (FSN) предлагает новую архитектуру, которая адаптирует выходные шаги прогноза в зависимости от контекста. Наша модель обеспечивает лучшую точность, эффективность и простоту внедрения в различных системах. ## Метод Методология FSN основывается на разработке гибкой структуры прогноза, которая включает несколько ключевых компонентов. Мы вводим Adaptive Prediction Module (APM), который анализирует условия ввода и оптимизирует выходные шаги. Динамический декодер (Dynamic Decoder, DD) управляет процессом вывода, обеспечивая простоту внедрения в различные модели. Чтобы гарантировать баланс между точностью и эффективностью, мы разработали систему оценки, использующую Fréchet distance для оценки геометрической схожести прогноза с траекторией-истинностью, а также учитывающую длину выходных шагов. Разработанная методология гарантирует универсальность и эффективность в разных условиях. ## Результаты В экспериментах на наборах данных Argoverse и INTERACTION FSN продемонстрировала значительное увеличение точности прогноза в сравнении с традиционными моделями. Мы проверили нашу модель на различных сценариях, включая траектории в городских условиях и высокоскоростные движения. Результаты показывают, что FSN обеспечивает лучшую точность и динамическую адаптацию к изменению размера и длины траекторий. Также мы проанализировали влияние различных параметров на результат, чтобы понять, как оптимизировать прогнозирование в различных условиях. ## Значимость Наша модель может быть применена в интеллектуальных системах, таких как автомобили-роботы, роботы-компаньоны и системы управления в реальном времени. Основные преимущества FSN заключаются в динамической адаптации к изменениям контекста, точности прогноза и простоте внедрения в различные системы. Эта модель позволяет улучшить процессы принятия решений в сценариях, где точность и гибкость критически важны. Будущие исследования будут ориентированы на улучшение APM для работы с более сложными данными и расширение применения FSN в различных областях. ## Выводы FlexiSteps Network (FSN) представляет собой прорыв в области прогнозирования траекторий, обеспечивая динамическую адаптацию и точность. Резуль

Annotation:

Accurate trajectory prediction is vital for autonomous driving, robotics, and intelligent decision-making systems, yet traditional models typically rely on fixed-length output predictions, limiting their adaptability to dynamic real-world scenarios. In this paper, we introduce the FlexiSteps Network (FSN), a novel framework that dynamically adjusts prediction output time steps based on varying contextual conditions. Inspired by recent advancements addressing observation length discrepancies and ...

ID: 2508.17797v1 cs.RO, cs.AI

arXiv PDF

📄 Arnold: a generalist muscle transformer policy

2025-08-27

Авторы:

Alberto Silvio Chiappa, Boshi An, Merkourios Simos, Chengkun Li, Alexander Mathis

## Контекст Актуальным научным вопросом является управление высокомерностными и нелинейными моделями мозговой-мышечной системы человека. Недавние достижения в области машинного обучения позволили создавать политики, успешно решающие отдельные задачи, такие как достижение цели, манипуляция объектами и локуция. Однако эти политики являются "специалистами", оптимизированными для решения конкретных задач. Недостаточностью таких подходов является их невозможность универсального применения. В данной работе предлагается Arnold — обобщенная политика, способная решать различные задачи и управлять различными моделями. Это решение призвано устранить ограниченность специализированных политик и обеспечить высокую гибкость и универсальность. ## Метод Arnold основывается на комбинации трех основных компонентов: техники клонирования поведения (behavior cloning), метода PPO (Proximal Policy Optimization) и трансформерной архитектуры. Он использует сенсорно-моторную лексикографию — универсальную структуру для представления смыслов, целей и моторных действий. Эта лексикография позволяет трансформеру работать с разными моделями и задачами, обрабатывая их различия в наблюдениях и действиях. Обучение происходит в два этапа: начальное обучение с behavior cloning и дополнительная оптимизация с помощью PPO. Это позволяет достичь высокого уровня производительности в 14 разнообразных задачах, включая манипуляцию предметами и локуцию. ## Результаты На тестировании в 14 задачах Arnold достиг высокого уровня производительности, демонстрируя экспертные или супер-экспертные результаты. Он эффективно решает задачи динамического локуции, тонкой манипуляции объектами и других сложных задач. Данные результаты подтверждают гибкость и эффективность использования сенсорно-моторной лексикографии и трансформерной архитектуры в многозадачном обучении. Кроме того, были проведены аналитические эксперименты, подтверждающие теоретические выводы о ограниченной трансфертивности мышечных синергий на различные задачи. ## Значимость Arnold может быть применен в широком кругу приложений, включая робототехнику, медицину, игровые технологии и симуляции человеческого поведения. Он предоставляет универсальный инструмент для обучения и управления моделями, не требующий переобучения для каждой новой задачи или модели. Это означает экономию ресурсов и времени. Благодаря своей гибкости и эффективности, Arnold может стать ключевым компонентом в развитии искусственного интеллекта и систем управления. ## Выводы Результаты работы подтвердили эффективность и гибкость Arnold в решении различных задач. О

Annotation:

Controlling high-dimensional and nonlinear musculoskeletal models of the human body is a foundational scientific challenge. Recent machine learning breakthroughs have heralded policies that master individual skills like reaching, object manipulation and locomotion in musculoskeletal systems with many degrees of freedom. However, these agents are merely "specialists", achieving high performance for a single skill. In this work, we develop Arnold, a generalist policy that masters multiple tasks an...

ID: 2508.18066v1 cs.RO, cs.AI, cs.LG, q-bio.QM

arXiv PDF

📄 SafeBimanual: Diffusion-based Trajectory Optimization for Safe Bimanual Manipulation

2025-08-27

Авторы:

Haoyuan Deng, Wenkai Guo, Qianzhun Wang, Zhenyu Wu, Ziwei Wang

#### Контекст Bimanual manipulation широко применяется в таких областях, как домстопки и производство, позволяя решать задачи, требующие точного координирования действий. Недавно развивающиеся методы основанные на подходах diffusion (распределение) позволили демонстрировать замечательные результаты в моделировании действий для бимановых манипуляций. Однако, они не учитывают физические ограничения и безопасность действий, что может привести к повреждению роботов или объектов. Это создает необходимость в разработке безопасных методов, учитывающих эти ограничения. #### Метод Мы предлагаем SafeBimanual — рамочный подход для оптимизации траекторий в бимановых манипуляциях, который может быть использован с другими предварительно обученными diffusion-based политиками. Он добавляет в алгоритм ограничения безопасности, чтобы избежать вреда роботу и объектам. Мы спроектировали разнообразные функции затрат для разных видов двойного координации, таких как избежание изломания предметов и коллизий между руками и предметами. Наше решение оптимизирует траектории с помощью метода гида в процессе распределения диффузии. Благодаря визуально-языковой модели (VLM), мы динамически строим функции затрат, учитывая спецификацию ключевых точек и отношений между ними. #### Результаты Мы проверили наш подход в 8 симуляционных задачах в RoboTwin, где наблюдали увеличение успешности до 13.7%, а также снижение небезопасных взаимодействий до 18.8% по сравнению с современными diffusion-based методами. На 4 реальных задачах результаты также были положительными, прирост успешности составил 32.5%. Эти результаты показывают высокую эффективность SafeBimanual в реальных условиях. #### Значимость Метод SafeBimanual может применяться в различных сферах, где требуется безопасная бимановая манипуляция, например, в автоматизированных производствах, робототехнике, домстопке. Он обеспечивает улучшенную безопасность, гибкость и увеличенную успешность в задачах с бимановыми манипуляциями. #### Выводы SafeBimanual достигает отличных результатов в безопасной бимановой манипуляции, улучшая успешность и безопасность действий. Мы планируем расширить исследования, внеся дополнительные усовершенствования в модели, такие как более точное учетво бимановых ограничений и расширенные сценарии применения.

Annotation:

Bimanual manipulation has been widely applied in household services and manufacturing, which enables the complex task completion with coordination requirements. Recent diffusion-based policy learning approaches have achieved promising performance in modeling action distributions for bimanual manipulation. However, they ignored the physical safety constraints of bimanual manipulation, which leads to the dangerous behaviors with damage to robots and objects. To this end, we propose a test-time tra...

ID: 2508.18268v1 cs.RO, cs.AI

arXiv PDF

📄 Spatial Policy: Guiding Visuomotor Robotic Manipulation with Spatial-Aware Modeling and Reasoning

2025-08-26

Авторы:

Yijun Liu, Yuwei Liu, Yuan Meng, Jieheng Zhang, Yuwei Zhou, Ye Li, Jiacheng Jiang, Kangye Ji, Shijia Ge, Zhi Wang, Wenwu Zhu

## Контекст В последние годы роботизированная манипуляция стала одной из ключевых областей исследований в области искусственного интеллекта и робототехники. Однако существующие методы часто сталкиваются с проблемами в управлении в долгосрочных задачах, особенно в сложных средах. Основной причиной этого является нехватка способности этих моделей достаточно эффективно использовать пространственную структуру среды при выборе действий. Такая недостаточность приводит к ошибкам в планировании и выполнении задач. Для решения этой проблемы было предложено Spatial Policy (SP) — новый фреймворк для спациально ориентированного визуально-моторного управления роботами. SP предлагает расширенную модель пространственной ориентации для повышения эффективности в контроле роботами в различных сложных сценариях. ## Метод Spatial Policy (SP) представляет собой инновационный подход к проблеме визуально-моторного управления, используя пространственную модель, которая работает на основе экспериментальной архитектуры. Основными модулями SP являются: 1) модуль спациально условного получения видео, который позволяет генерировать видео в соответствии с пространственной планой; 2) модуль прогнозирования пространственных действий, который использует пространственную модель для выбора наиболее подходящих действий; 3) модуль пространственного рассуждения, который учитывает два этапа перепланирования для достижения более точных результатов. Эти модули взаимодействуют в единой структуре, обеспечивая пространственно ориентированное планирование и выполнение задач. ## Результаты Работа была проверена на 11 различных задачах, в которых Spatial Policy (SP) демонстрировал отличные результаты. Использовались разнообразные данные, включая видео с действиями и пространственные планы. Эксперименты показали, что SP значительно превосходит другие модели, показывая среднюю улучшение эффективности на 33.0%. Благодаря своей способности учитывать пространственную структуру, SP достигает средней успешности 86.7%, что существенно повышает практическую применимость моделей визуально-моторного управления. Эти результаты демонстрируют мощь SP в решении проблем, связанных с пространственной ориентацией в роботизированной манипуляции. ## Значимость Предложенный Spatial Policy (SP) имеет широкие области применения, в том числе в области роботизированных систем, искусственного интеллекта, а также в сферах, где требуется пространственно ориентированное планирование. Этот подход предлагает значительные преимущества, включая более точное планирование, увеличенную эффективность и улучшенную надежность в контроле робо

Annotation:

Vision-centric hierarchical embodied models have demonstrated strong potential for long-horizon robotic control. However, existing methods lack spatial awareness capabilities, limiting their effectiveness in bridging visual plans to actionable control in complex environments. To address this problem, we propose Spatial Policy (SP), a unified spatial-aware visuomotor robotic manipulation framework via explicit spatial modeling and reasoning. Specifically, we first design a spatial-conditioned emb...

ID: 2508.15874v1 cs.RO, cs.AI, cs.CV

arXiv PDF

1
2
45
46
47
48
49
54
55

Показано 461 - 470 из 544 записей