📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SPGrasp: Spatiotemporal Prompt-driven Grasp Synthesis in Dynamic Scenes

2025-08-30

Авторы:

Yunpeng Mei, Hongjie Cao, Yinqiu Xia, Wei Xiao, Zhaohan Feng, Gang Wang, Jie Chen

## Контекст Исследование выполнено в области машинного зрения и систем распознавания объектов в видео. Основной проблемой является синтез интерактивных захватов динамичных объектов в реальном времени. Традиционные методы страдают от высокой задержки и невозможности проводить целостную синтезированную работу. Развитие систем требует методологий, обеспечивающих низкую задержку, высокие точность и простоту взаимодействия. В этой статье предлагается SPGrasp — новая программная модель, которая способна обеспечивать эффективный захват динамичных объектов в реальном времени с низкой задержкой и гарантирующая высокую точность. ## Метод SPGrasp основывается на расширенной модели Segment Anything Model v2 (SAMv2). Она включает в себя специальный механизм интеграции пространственно-временного контекста и пространственных сигналов для более точной синтезированной работы. Метод использует специальные пользовательские запросы (prompts), что позволяет реализовать интерактивный грабежный процесс. Архитектура включает в себя нейронные сети, которые обрабатывают не только изображения, но и видеопотоки в реальном времени. Также в SPGrasp используется метод графической оптимизации, чтобы обеспечить стабильность и своевременность работы. ## Результаты В экспериментах были использованы данные из таких наборов, как OCID, Jacquard и GraspNet-1Billion. Метод SPGrasp показал высокую точность в захвате динамичных объектов. На OCID и Jacquard, SPGrasp достигло 90.6% и 93.8%, соответственно. На GraspNet-1Billion, где производилась продолжительная работа с видеопотоками, SPGrasp показал 92.0% точности при средней задержке 73.1 мс на кадр. Это представляет собой существенное сокращение задержки по сравнению с предыдущими методами. Также проводились реально-мирные эксперименты с 13 динамически развивающимися объектами, в результате которых была достигнута 94.8% успешности захвата. ## Значимость Модель SPGrasp применяется в различных областях, таких как робототехника, транспортные системы и автоматические системы управления. Она обеспечивает значительное сокращение задержки, повышает точность захвата и повышает интерактивность в работе с динамическими объектами. Это выносит SPGrasp в лидирующие позиции по сравнению с предшествующими моделями. Благодаря найденному балансу между скоростью и точностью, SPGrasp является ключевым технологическим решением для реализации интерактивных систем. ## Выводы SPGrasp достигла впечатляющих результатов в синтезе захвата динамичных объектов в реальном времени. Он уменьшил задержку до 59 мс, обеспечив высокую точно

Annotation:

Real-time interactive grasp synthesis for dynamic objects remains challenging as existing methods fail to achieve low-latency inference while maintaining promptability. To bridge this gap, we propose SPGrasp (spatiotemporal prompt-driven dynamic grasp synthesis), a novel framework extending segment anything model v2 (SAMv2) for video stream grasp estimation. Our core innovation integrates user prompts with spatiotemporal context, enabling real-time interaction with end-to-end latency as low as 5...

ID: 2508.20547v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Task-Oriented Edge-Assisted Cross-System Design for Real-Time Human-Robot Interaction in Industrial Metaverse

2025-08-30

Авторы:

Kan Chen, Zhen Meng, Xiangmin Xu, Jiaming Yang, Emma Li, Philip G. Zhao

## Контекст Область исследования, связанная с реальном времени интеракцией человека с роботом в индустриальном Metaverse, становится все более важной в условиях растущего интереса к удобству и эффективности работы в управлении распределенными системами. Однако эта область сталкивается с рядом технических проблем, включая высокую сложность обработки данных, ограниченную пропускную способность сетей и жесткие ограничения по задержкам. Эти ограничения могут приводить к неточности, задержкам и нестабильности в реальном времени. Для решения этих проблем, предлагается использование фреймворка, основанного на цифровых двойниках (DTs), который позволяет реализовать прогностические и превентивные механизмы. Цифровые двойники декомпозируются на две функции: отображение визуальных данных и контроль удаленных устройств, чтобы обеспечить эффективность и адаптивность. Такой подход имеет потенциал для повышения производительности, точности и надежности в индустриальных Metaverse-системах. ## Метод Предлагаемый фреймворк построен на использовании цифровых двойников, которые разделены на две функции: обработка визуальных данных и контроль удаленных устройств. Он включает в себя алгоритм Human-In-The-Loop Model-Agnostic Meta-Learning (HITL-MAML) для оптимизации прогностических моделей. Этот алгоритм анализирует динамические изменения в действиях оператора и адаптирует предсказания в реальном времени, чтобы обеспечить точность и прогностическую способность. Для улучшения производительности и снижения задержек, рассматривается функциональное разделение устройств, чтобы использовать их в зависимости от того, могут ли они обеспечить реальное время обработки данных. Такая архитектура позволяет повысить эффективность и реагировать на изменения в реальном времени. ## Результаты Проведены эксперименты с двумя типами задач: Trajectory-Based Drawing Control и 3D scene representation for nuclear decommissioning. В первой задаче, с использованием фреймворка, был снижен весьточный RMSE с 0.0712 м до 0.0101 м. Во второй задаче, относящейся к реализации 3D-сцен, фреймворк достиг PSNR 22.11, SSIM 0.8729 и LPIPS 0.1298, что демонстрирует высокую точность и качество визуальной обработки. Эти результаты показывают, что фреймворк эффективно решает проблемы реального времени в индустриальных Metaverse-системах, обеспечивая точность и стабильность. ## Значимость Предлагаемый подход может быть применен в различных индустриальных сценариях, например, в аэронавтике, автомобилестроении и ядерной энергетике. Он обеспечивает повышение точности и прогностической способности, что может повысить безопасность и эффективность робото

Annotation:

Real-time human-device interaction in industrial Metaverse faces challenges such as high computational load, limited bandwidth, and strict latency. This paper proposes a task-oriented edge-assisted cross-system framework using digital twins (DTs) to enable responsive interactions. By predicting operator motions, the system supports: 1) proactive Metaverse rendering for visual feedback, and 2) preemptive control of remote devices. The DTs are decoupled into two virtual functions-visual display an...

ID: 2508.20664v1 cs.RO, cs.AI, cs.GR

arXiv PDF

📄 Task Allocation for Autonomous Machines using Computational Intelligence and Deep Reinforcement Learning

2025-08-30

Авторы:

Thanh Thi Nguyen, Quoc Viet Hung Nguyen, Jonathan Kua, Imran Razzak, Dung Nguyen, Saeid Nahavandi

#### Контекст Обеспечение надежной работы нескольких автономных машин требует развития эффективных алгоритмов координации и управления. Эти задачи возникают в различных областях, таких как робототехника, транспортные системы и системы управления производством. Одной из ключевых проблем является эффективное распределение задач между машинами, чтобы обеспечить совместную работу и достижение целей. Существуют многочисленные подходы к решению этой проблемы, основывающиеся на различных методах искусственного интеллекта и машинного обучения. Однако, существуют ограничения в существующих методах, включая неэффективность в динамических и неопределенных условиях. Это побудило авторов исследовать роль вычислительного интеллекта (CI) и глубокого учения с подкреплением (Deep Reinforcement Learning, DRL) в решении проблемы распределения задач. #### Метод Предложенный подход включает в себя использование CI и DRL для распределения задач между автономными машинами. CI позволяет анализировать и оптимизировать процесс принятия решений, в том числе распределение задач и оптимизацию путей. DRL добавляет возможность учиться из ошибок и учитывать сложные среды с непредсказуемыми условиями. Архитектура метода включает нейронные сети, используемые для оценки состояния среды и принятия решений. Также рассматриваются методы оценки качества решений, такие как средняя временная стоимость выполнения задачи и эффективность решений. #### Результаты В ходе экспериментов были проанализированы различные методы распределения задач, включая классические CI-методы и новые подходы на основе DRL. Были использованы симуляторы и реальные среды для тестирования эффективности алгоритмов. Результаты показали, что CI-методы показывают хорошие результаты в статических условиях, но имеют ограничения в динамических средах. DRL-методы проявили значительные преимущества в условиях неопределенности, обеспечивая более эффективное распределение задач и уменьшение времени выполнения. Также были изучены метрики производительности, такие как время реакции и точность принятия решений, что позволило подтвердить преимущества DRL-подхода. #### Значимость Результаты имеют широкое применение в области робототехники, транспортных систем, а также в управлении производственными процессами. Использование DRL позволяет улучшить надежность и эффективность автономных машин в реальных условиях. Этот подход может быть применен для решения задач, требующих быстрого реагирования и точности распределения ресурсов в нестабильных средах. Помимо этого, DRL открывает новые возможности для исследования и реш

Annotation:

Enabling multiple autonomous machines to perform reliably requires the development of efficient cooperative control algorithms. This paper presents a survey of algorithms that have been developed for controlling and coordinating autonomous machines in complex environments. We especially focus on task allocation methods using computational intelligence (CI) and deep reinforcement learning (RL). The advantages and disadvantages of the surveyed methods are analysed thoroughly. We also propose and d...

ID: 2508.20688v1 cs.RO, cs.AI

arXiv PDF

📄 Uncertainty Aware-Predictive Control Barrier Functions: Safer Human Robot Interaction through Probabilistic Motion Forecasting

2025-08-30

Авторы:

Lorenzo Busellato, Federico Cunico, Diego Dall'Alba, Marco Emporio, Andrea Giachetti, Riccardo Muradore, Marco Cristani

#### Контекст Область исследования киберфизических систем, особенно динамического взаимодействия человека и робота в рабочих пространствах, является ключевой для развития автоматизации в современных производственных и сервисных секторах. Одной из основных проблем является обеспечение безопасности и эффективности во взаимодействии, необходимостью которого свидетельствует увеличение числа коллизий между людьми и роботами. Существующие системы часто ориентируются на реактивные методы или работу с худшим случаем, что приводит к ограниченной гибкости и неэффективности. Мотивация заключается в разработке методов, объединяющих предсказание движения человека, формальные методы обеспечения безопасности и динамическое управление, чтобы обеспечить более безопасное и удобное взаимодействие. #### Метод Разработан фреймворк **Uncertainty-Aware Predictive Control Barrier Functions (UA-PCBFs)**, который интегрирует технологии предсказания движения человека с теорией Control Barrier Functions (CBFs). Основной идеей является использование не только самого вероятного предсказания людского движения, но и его доверительного интервала, чтобы адаптировать безопасностные маргины в реальном времени. Формальная архитектура включает нейронные сети для предсказания движения, целевые функции управления и моделирование риска через CBFs. Эта структура позволяет коллективным роботам учитывать вероятностные пространства движения человека, уменьшая необходимость в реактивности и предотвращая необдуманные бреки в задачах. #### Результаты Удалены и моделированы реалистичные сценарии взаимодействия человека с роботом в производственных условиях. Набор экспериментов включал статические симуляции, виртуальные тестирования и реальные взаимодействия с использованием робототуриста и руководства тренировки. Основные результаты показали, что UA-PCBFs позволяют сократить количество нарушений безопасной зоны робота на 30% по сравнению с современными методами. Обнаружено, что в силу интеграции учета неопределенности в предсказании худшего случая, система обеспечивает более продолжительное и безопасное взаимодействие, уменьшая необходимость в нежелательных остановках. #### Значимость Применение UA-PCBFs может быть распространено в сферах, где необходимо совместное взаимодействие людей и роботов, включая производственные цеховые линии, а также роботизированные системы в сфере здравоохранения. Этот подход предоставляет более гибкую реакцию на непредсказуемые движения человека, уменьшает время простоя задач, и улучшает общую эффективность. Также, посредством дина

Annotation:

To enable flexible, high-throughput automation in settings where people and robots share workspaces, collaborative robotic cells must reconcile stringent safety guarantees with the need for responsive and effective behavior. A dynamic obstacle is the stochastic, task-dependent variability of human motion: when robots fall back on purely reactive or worst-case envelopes, they brake unnecessarily, stall task progress, and tamper with the fluidity that true Human-Robot Interaction demands. In recen...

ID: 2508.20812v1 cs.RO, cs.AI

arXiv PDF

📄 Learning Primitive Embodied World Models: Towards Scalable Robotic Learning

2025-08-30

Авторы:

Qiao Sun, Liujia Yang, Wei Tang, Wei Huang, Kaixin Xu, Yongchao Chen, Mingyu Liu, Jiange Yang, Haoyi Zhu, Yating Wang, Tong He, Yilun Chen, Xili Dai, Nanyang Ye, Qinying Gu

## Контекст В последние годы растет интерес к развитию объектно-ориентированных моделей мира в рамках робототехники и искусственного интеллекта. Однако эти модели сталкиваются с значительными ограничениями, связанными с объемом и сложностью данных, необходимых для обучения. Особенно чувствуется эта проблема в области роботов, взаимодействующих с физическим миром. Ограниченность доступных данных и сложность их сбора не позволяют полностью использовать потенциал моделей в области управления и развития ими универсальных стратегий. Точность и эффективность таких моделей ограничиваются не только их конструктивными особенностями, но и сложностью обработки данных, подразумевающей высокоинтегрированные алгоритмы. Развитие методов, расширяющих границы возможностей роботов в области понимания и взаимодействия с окружающим миром, является актуальным заданием. ## Метод Для решения проблемы ограниченных объемов данных и сложности обучения разработана методология **Primitive Embodied World Models (PEWM)**. Эта модель ограничивает видео-генерацию в рамках краткого промежутка времени, что позволяет осуществлять точную связь между языковыми понятиями и визуальными представлениями. Метод также включает в себя **Vision-Language Model (VLM)** для планирования и **Start-Goal Heatmap Guidance Mechanism (SGG)** для управления. Такая структура позволяет повысить эффективность обучения, сократить требования к данным и улучшить возможности управления в реальном времени. ## Результаты Проведены эксперименты, используя различные данные, включая видеоснимки и данные об интеракции с миром. Были проанализированы результаты, показавшие повышение точности и эффективности модели PEWM в сравнении с другими подходами. В частности, удалось достичь наилучших результатов в сфере структурированного обучения и управления, что подтвердило высокую эффективность применения PEWM в реальных сценариях. ## Значимость Метод PEWM может применяться в различных областях, включая робототехнику, интеллектуальные системы, а также в интерактивные приложения, требующие понимания и взаимодействия с физическим окружением. Основное преимущество PEWM заключается в улучшении точности, эффективности и предсказуемости моделей в области объектно-ориентированного понимания. Это может привести к развитию универсальных моделей, которые могут использоваться в различных сферах, вплоть до роботов-ассистентов в каждодневной жизни. ## Выводы Разработанная модель PEWM продемонстрировала высокую эффективность в решении задач, связанных с обучением в мире роботов. Она позволяет повысить точность, уменьшить требования к дан

Annotation:

While video-generation-based embodied world models have gained increasing attention, their reliance on large-scale embodied interaction data remains a key bottleneck. The scarcity, difficulty of collection, and high dimensionality of embodied data fundamentally limit the alignment granularity between language and actions and exacerbate the challenge of long-horizon video generation--hindering generative models from achieving a "GPT moment" in the embodied domain. There is a naive observation: th...

ID: 2508.20840v1 cs.RO, cs.AI, cs.MM

arXiv PDF

📄 Prompt-to-Product: Generative Assembly via Bimanual Manipulation

2025-08-30

Авторы:

Ruixuan Liu, Philip Huang, Ava Pun, Kangle Deng, Shobhit Aggarwal, Kevin Tang, Michelle Liu, Deva Ramanan, Jun-Yan Zhu, Jiaoyang Li, Changliu Liu

## Контекст Создание продуктов, состоящих из модулей или составных частей, является сложной задачей, требующей значительного времени и экспертных знаний. Она включает две главные стадии: проектирование модульного дизайна и реальное сборение продукта. На данный момент эти процессы требуют тщательного планирования и ручной работы, что ограничивает их доступность для широкой аудитории. Кроме того, существует недостаток систем, которые могли бы автоматически преобразовывать пользовательские идеи в физически существующие модульные продукты. Идея Prompt-to-Product заключается в том, чтобы адресовать эту проблему, обеспечив возможность автоматического преобразования пользовательских естественных запросов в полностью физически выполнимые модульные модели. Эта система адресует проблему доступности и упрощает процесс создания модульных продуктов, предоставляя новый подход к модульному проектированию и сборке. ## Метод Prompt-to-Product представляет собой автоматизированную цепочку процессов, начиная с разбора естественных языковых запросов и заканчивая физическим сборением продукта. Она состоит из нескольких ключевых этапов: 1. **Парсинг естественного языка**: Используется специальный лексический анализатор для извлечения требований к дизайну и модулям. 2. **Генерирование моделей**: Алгоритмы генеративного дизайна создают модульные модели, соответствующие запросу пользователя. 3. **Оптимизация**: Методы оптимизации гарантируют, что модели будут физически сборяемыми и удовлетворять требованиям. 4. **Реализация сборки**: Бимануальная роботизированная система выполняет реальный сборный процесс, используя LEGO-блоки в качестве модулей. Эта система автоматизирует не только дизайн, но и реальное сборение, чтобы сделать процесс более эффективным и доступным. ## Результаты В рамках экспериментов были проведены несколько испытаний для проверки эффективности Prompt-to-Product. Был разработан набор тестовых сценариев, содержащий различные модульные продукты, необходимые для сборки в соответствии с пользовательскими запросами. Результаты показали, что система успешно генерирует модели, которые не только физически сборяемы, но также соответствуют требованиям пользователей. Было проведено пользовательское исследование, в котором участники использовали Prompt-to-Product для создания моделей. Результаты показали, что пользователи смогли эффективно использовать систему, снижая время и усилия, необходимые для сборки модульных продуктов. Это демонстрирует высокую эффективность Prompt-to-Product в снижении барьеров для создания модульных продуктов. ## Значимость

Annotation:

Creating assembly products demands significant manual effort and expert knowledge in 1) designing the assembly and 2) constructing the product. This paper introduces Prompt-to-Product, an automated pipeline that generates real-world assembly products from natural language prompts. Specifically, we leverage LEGO bricks as the assembly platform and automate the process of creating brick assembly structures. Given the user design requirements, Prompt-to-Product generates physically buildable brick ...

ID: 2508.21063v1 cs.RO, cs.AI

arXiv PDF

📄 From Tabula Rasa to Emergent Abilities: Discovering Robot Skills via Real-World Unsupervised Quality-Diversity

2025-08-29

Авторы:

Luca Grillotti, Lisa Coiffard, Oscar Pang, Maxence Faldor, Antoine Cully

## Контекст Автоматическое развитие способностей роботов является ключевым заданием для создания универсальных и эффективных систем автономного робототехнического управления. Однако, современные методы требуют вмешательства человека для определения целей и параметров обучения. Такая зависимость от человеческого вмешательства ограничивает робота в своей способности адаптироваться к нестандартным и непредсказуемым ситуациям. Более того, обучение на физической робот-платформе требует крупных объемов данных и жесткого контроля за безопасностью, что затрудняет развитие эффективных методов для обнаружения многообразия возможных робот-ситуаций. Эта статья предлагает расширенный подход к самостоятельному развитию робот-способностей в реальном мире, который уменьшает необходимость вручную настраивать цели и ограничения. ## Метод Мы предлагаем метод, названный Unsupervised Real-World Skill Acquisition (URSA), расширенное расширение существующего Quality-Diversity Actor-Critic (QDAC). URSA объединяет механизм генерации разнообразия с автономным обнаружением робот-способностей в реальном мире, не требуя человеческого вмешательства. У нас есть две основные операции: 1) поиск потенциальных способностей робота в реальном мире с помощью новых техник оптимизации, и 2) поддержка этих способностей с помощью легковесного моделирования, которое позволяет роботу измерять эффективность своих действий. URSA также может работать в тех случаях, когда сбор данных должен быть быстрым и эффективным, чтобы обеспечить безопасность и высокую производительность. ## Результаты Мы провели эксперименты, в которых робот-управляемый Unitree A1 прошел специально сконструированные тесты в симуляции и реальном мире. Мы сравнивали URSA с тремя существующими методами, включая QDAC. Результаты показывают, что URSA не только выполняет достижение разнообразных робот-способностей, но и обеспечивает высокую производительность в обнаружении способностей в реальном мире. Например, URSA удалось выявить более 10 различных робот-способностей на Unitree A1, в том числе стойкость к повреждениям и повышенную локальную мобильность. Кроме того, URSA показал себя эффективнее всех остальных методов в сценариях с различными видами повреждений, из-за того, что он может адаптироваться к новым условиям без требования человеческого вмешательства. ## Значимость Наш метод может быть применен в различных сферах, включая автономное робототехническое управление, организацию производственных задач, а также в области роботов-компаньонов, которые должны самос

Annotation:

Autonomous skill discovery aims to enable robots to acquire diverse behaviors without explicit supervision. Learning such behaviors directly on physical hardware remains challenging due to safety and data efficiency constraints. Existing methods, including Quality-Diversity Actor-Critic (QDAC), require manually defined skill spaces and carefully tuned heuristics, limiting real-world applicability. We propose Unsupervised Real-world Skill Acquisition (URSA), an extension of QDAC that enables robo...

ID: 2508.19172v3 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Inference of Human-derived Specifications of Object Placement via Demonstration

2025-08-29

Авторы:

Alex Cuellar, Ho Chit Siu, Julie A Shah

## Контекст Роботизированные системы, осуществляющие задачи пика-ан-плейс (например, упаковка, сортировка и составление комплектов), постоянно совершенствуются. Однако методы, основывающиеся на понимании человеческих предпочтений по расположению предметов, до сих пор не полностью реализованы. Эти предпочтения часто заключаются в необходимости соблюдения определенных пространственных отношений между предметами, которые трудно выразить с помощью традиционных формализмов. Таким образом, возникает необходимость разработки более выразительных методов, позволяющих роботам лучше понимать человеческие правила расположения предметов. ## Метод Разработанное решение, под названием позиционно-усиленный RCC (PARCC), основано на региональном калькул (RCC), который уже используется для описания пространственных отношений. Однако PARCC добавляет новые возможности для лучшего понимания человеческих предпочтений. Для обучения этого фреймворка вводится алгоритм, основанный на демонстрациях, позволяющий роботу изучать человеческие правила расположения. Этот подход позволяет роботу не только выполнять задачи, но и понимать их в контексте человеческих ожиданий. ## Результаты В ходе исследования была проведена серия экспериментов, в ходе которых использовались данные, собранные во время экспериментов с людьми. Эти данные позволили роботу изучить человеческие правила расположения по демонстрациям. Оценка результатов показала, что PARCC эффективно моделирует человеческие предпочтения и предлагает более выразительные возможности для описания пространственных отношений. Это доказывает преимущества метода обучения через демонстрации по сравнению с традиционными способами. ## Значимость Применение PARCC может быть полезно в различных областях, где необходимо понимание человеческих правил расположения предметов. Например, в производственных заводах, где роботы могут учитывать человеческие предпочтения при упаковке и сортировке товаров. Это не только улучшает эффективность, но также уменьшает вероятность ошибок. Благодаря позиционно-усиленному RCC, роботы могут более точно понять человеческие правила, что влечет за собой повышение качества работы. ## Выводы Разработанный PARCC-фреймворк демонстрирует значительные преимущества в процессе обучения человеческих правил расположения предметов. Несмотря на это, будущие исследования будут фокусироваться на улучшении точности интерпретации сложных пространственных отношений и расширении применимости фреймворка к более широкому кругу задач. Это будет упрощать интеграцию роботов в рабочие процессы, где

Annotation:

As robots' manipulation capabilities improve for pick-and-place tasks (e.g., object packing, sorting, and kitting), methods focused on understanding human-acceptable object configurations remain limited expressively with regard to capturing spatial relationships important to humans. To advance robotic understanding of human rules for object arrangement, we introduce positionally-augmented RCC (PARCC), a formal logic framework based on region connection calculus (RCC) for describing the relative ...

ID: 2508.19367v1 cs.RO, cs.AI, cs.HC

arXiv PDF

📄 Discrete-Guided Diffusion for Scalable and Safe Multi-Robot Motion Planning

2025-08-29

Авторы:

Jinhao Liang, Sven Koenig, Ferdinando Fioretto

## Контекст Multi-Robot Motion Planning (MRMP) является кллючевым вопросом в автоматизации и робототехнике, нацеленным на генерацию коллизионно-свободных маршрутов для нескольких роботов, работающих в общем непрерывном пространстве. Существующие подходы разделяются на дискретные методы, такие как discrete multi-agent path finding (MAPF), и континуум-оптимизационные методы. Дискретные подходы хорошо масштабируются, но применяют примитивную дискретизацию, что приводит к потере качества маршрутов. Наоборот, континуум-оптимизационные методы обеспечивают высокое качество маршрутов, но не могут масштабироваться с увеличением количества роботов из-за курса дименсиональности. Таким образом, существует необходимость в разработке методов, объединяющих выгоды дискретных и континуум-подходов. ## Метод Дискретно-гуиденд диффузия (Discrete-Guided Diffusion, DGD) представляет собой инновационный подход, который интегрирует методы MAPF с констрейнтными моделями диффузии. Основные шаги метода включают: 1. **Декомпозиция проблемы MRMP**: Она разделяется на отдельные подзадачи с конфигурационными пространствами, обладающими свойством выпуклости. 2. **Интеграция MAPF с констрейнтными оптимизационными моделями**: DGD использует MAPF для генерации эффективных начальных маршрутов, а констрейнтные модели диффузии для уточнения траекторий и сжатия пространственно-временных зависимостей. 3. **Улучшение планирования**: Механизм ремонта конфигураций исправляет недопустимые маршруты, обеспечивая их выполнимость. Такая архитектура позволяет DGD эффективно решать MRMP для больших групп роботов, сочетая высокую скорость работы с высоким качеством маршрутов. ## Результаты Исследователи проверили DGD на сложных симуляционных средах с до 100 роботов. Метод показал значительное превосходство по сравнению с лучшими существующими подходами: - **Эффективность**: DGD значительно уменьшает время планирования без потери качества маршрутов. - **Качество маршрутов**: Маршруты, созданные DGD, показали значительную улучшенность по сравнению с дискретными методами. - **Устойчивость**: Механизм ремонта конфигураций обеспечил высокую устойчивость работы DGD в различных сценариях. Эти результаты демонстрируют превосходство DGD в больших количествах роботов и сложных средах. ## Значимость DGD имеет широкие приложения в сферах, требующих эффективного управления несколькими роботами, таких как автоматизированные здания, производственные цехи и поиск-и-спасание операции. Он предоставляет следующие преимущества: - **М

Annotation:

Multi-Robot Motion Planning (MRMP) involves generating collision-free trajectories for multiple robots operating in a shared continuous workspace. While discrete multi-agent path finding (MAPF) methods are broadly adopted due to their scalability, their coarse discretization severely limits trajectory quality. In contrast, continuous optimization-based planners offer higher-quality paths but suffer from the curse of dimensionality, resulting in poor scalability with respect to the number of robo...

ID: 2508.20095v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Mining the Long Tail: A Comparative Study of Data-Centric Criticality Metrics for Robust Offline Reinforcement Learning in Autonomous Motion Planning

2025-08-28

Авторы:

Antonio Guillen-Perez

#### Контекст На сегодняшний день, Offline Reinforcement Learning (RL) является важной методикой для обучения автономных агентов, таких как автомобили, с использованием больших наборов реальных данных. Однако в этих данных существует чрезвычайная несбалансированность: большинство сценариев (например, плавное вождение по трассе) встречается зачастую, в то время как редкие сценарии (например, столкновения или неожиданные обстоятельства) редко встречаются. Этот дисбаланс приводит к появлению слабых и небезопасных политик при использовании стандартных методов равномерной выборки данных. В данной работе мы адресуем эту проблему, осуществляя систематическое сравнительное исследование подходов к данной проблеме, нацеленных на фокусировку обучения на самых "информативных" сценариях. #### Метод Мы рассмотрели шесть различных стратегий взвешивания данных, разделенных на три класса: те, которые основываются на логических правилах (heuristic-based), те, которые основываются на неуверенности модели (uncertainty-based), и те, которые основываются на поведении агента (behavior-based). Для каждого класса мы определили конкретные метрики для оценки "критичности" данных в разных слоях анализа: на уровне отдельных шагов и в целом на уровне сценария. Используя семь агентов, обученных с использованием Conservative Q-Learning (CQL), мы проводили эксперименты в хорошо проверенной симуляционной среде Waymax. Мы также использовали архитектуру с агрегированием внимания, которая сочетает в себе возможность учитывать детали в индивидуальных моментах времени, а также контекст в целом сценарии. #### Результаты Использование всех стратегий взвешивания данных приводило к значительным улучшениям по сравнению с базовым методом равномерной выборки. Особенно заметные были результаты использования неуверенности модели в качестве признака критичности: этот подход привел к снижению частоты столкновений в почти три раза, с 16,0% до 5,5%. Было также выявлено конфликтное соотношение: стратегии, основанные на взвешивании на уровне отдельных моментов времени, демонстрировали лучший результат в терминах реактивной безопасности, тогда как стратегии уровня сценария давали лучшие результаты в длинных горизонтах планирования. #### Значимость Наши результаты продемонстрировали, что интеллектуальная, неравномерная выборка данных является ключевым компонентом для создания безопасных и надежных автономных агентов. Этот подход имеет широкие применения в области автономного вождения, благодаря своей способности адаптироваться к реальной сложности вождения. Также, наши результаты могут быть использованы для улучшения обучения в других задачах, где име

Annotation:

Offline Reinforcement Learning (RL) presents a promising paradigm for training autonomous vehicle (AV) planning policies from large-scale, real-world driving logs. However, the extreme data imbalance in these logs, where mundane scenarios vastly outnumber rare "long-tail" events, leads to brittle and unsafe policies when using standard uniform data sampling. In this work, we address this challenge through a systematic, large-scale comparative study of data curation strategies designed to focus t...

ID: 2508.18397v1 cs.RO, cs.AI, cs.LG

arXiv PDF

1
2
43
44
45
46
47
54
55

Показано 441 - 450 из 544 записей