📚 Саммари научных статей из arXiv

Найдено 126 результатов по запросу 'cs.AI, cs.RO' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer

2025-09-30

Авторы:

Zhehao Dong, Xiaofeng Wang, Zheng Zhu, Yirui Wang, Yang Wang, Yukun Zhou, Boyuan Wang, Chaojun Ni, Runqi Ouyang, Wenkang Qin, Xinze Chen, Yun Ye, Guan Huang

## Контекст Область виджин-лангуаж-акшн (VLA) моделей растёт, но создание больших наборов данных для реального роботного манипулирования остаётся дорогостоящим и трудоёмким. Это ставит перед исследователями задачу найти эффективные способы повысить общую способность моделей. Одной из проблем является трудность создания разнообразных данных для обучения, включающих различные объекты и условия окружения. Задача EMMA — создать фреймворк, который позволит генерировать роботные данные, обеспечивая робастную генеральную способность, в том числе при переносе на новые визуальные сценарии. ## Метод Основной архитектурой EMMA является DreamTransfer — диффузионный трансформер, разработанный для генерации видео manipulation с многопросмотровым согласованием и геометрическим здравомыслием. Он позволяет редактировать видео робота в реальном времени, изменяя фоновые и передние объекты, а также освещение, при этом сохраняя трёхмерную структуру. Для повышения устойчивости обучения вводится гибридная стратегия обучения, сочетающая реальные и генерируемые данные. Также представлена AdaMix — стратегия, которая регулирует веса обучающих батчей в зависимости от их сложности. ## Результаты Результаты экспериментов показали, что видео, сгенерированные DreamTransfer, превосходят другие технологии в многопросмотровой точности, геометрической аккуратности и устойчивости к смене текстового условия. Был проведён тест на роботных задачах в незнакомых визуальных сценариях, где VLA с генерируемыми данными показало 200% большую производительность по сравнению с тренировкой только на реальных данных. Использование AdaMix дало дополнительный прирост в 13%, подтвердив эффективность стратегии в условиях высоких сложности. ## Значимость Приложение EMMA расширяет возможности VLA моделей, позволяя им обобщаться на новые визуальные условия и категории объектов. Это имеет большое значение для реального применения в сферах, где требуется гибкость и надежность взаимодействия роботов с окружением. Особенно полезно для сценариев с нулевым визуальным восприятием. ## Выводы Результаты EMMA открывают путь к будущим исследованиям в области генерации визуальных данных для манипулирования роботами. В будущем будет интересно исследовать усовершенствования DreamTransfer, чтобы добиться ещё большей точности и гибкости в построении визуальных моделей.

Annotation:

Vision-language-action (VLA) models increasingly rely on diverse training data to achieve robust generalization. However, collecting large-scale real-world robot manipulation data across varied object appearances and environmental conditions remains prohibitively time-consuming and expensive. To overcome this bottleneck, we propose Embodied Manipulation Media Adaptation (EMMA), a VLA policy enhancement framework that integrates a generative data engine with an effective training pipeline. We int...

ID: 2509.22407v1 cs.AI, cs.RO

arXiv PDF

📄 Score the Steps, Not Just the Goal: VLM-Based Subgoal Evaluation for Robotic Manipulation

2025-09-26

Авторы:

Ramy ElMallah, Krish Chhajer, Chi-Guhn Lee

## Контекст Научные исследования в области робототехники часто опираются на меру успеха, определяемую стандартным показателем успешности (SR), который возвращается после завершения целого эксперимента. Однако этот подход скрывает информацию о том, как политика или агент справляется с каждым отдельным шагом в многошаговом манипуляционном задании. Например, в постановке цели гарантированного успеха могут быть обнаружены проблемы с отдельными действиями (например, захватом или полива). Данная проблема требует альтернативных подходов к оценке производительности, которые могут помочь выявить слабые места и сократить время на отладку. ## Метод Мы предлагаем методологию, основанную на использовании виджета лингвистического моделирования (VLM) для оценки подзадач в многошаговой манипуляции. Наша методика заключается в том, чтобы измерять производительность по отдельным подзадачам (например, захват, подъем, полив), которые составляют целостную задачу. Мы предлагаем архитектуру StepEval, которая использует VLM для автоматической оценки подзадач на основе видео- или изображений-кадров. Эта архитектура использует метрики, такие как время работы, затраты на ресурсы и позиционирование, чтобы выявлять слабые места в поведении робота. Также мы предлагаем расширить текущую модель, добавив поддержку многоканальных входных данных и многомерной оценки. ## Результаты Мы провели эксперименты с помощью нашего подхода на задачах, включающих три независимых подзадачи: подъем, захват и полив. В качестве данных для тестирования мы использовали видеосъемки робота в разных сценариях. Результаты показали, что наша методика позволяет выявить слабые места в производительности робота на каждой отдельной подзадаче, что дает новый взгляд на общую эффективность. Мы также проверили, насколько наша модель может быть устойчива к разным типам данных и сценариям. ## Значимость Наш подход может быть применен в различных областях, таких как робототехника, логистика и медицинские технологии, где требуется точная эффективность в многошаговых операциях. Он обеспечивает более глубокий анализ производительности робота, позволяя выявить и исправить слабые места в процессе. Также этот подход может быть использован для оптимизации ресурсов, таких как энергопотребление и время работы, что делает его привлекательным для индустрии. ## Выводы Мы предложили новый подход к оценке производительности роботов, который ориентирован на подзадачи. Наша работа может стать началом для создания открытого проекта, который поможет стандартизировать и улучшить мето

Annotation:

Robot learning papers typically report a single binary success rate (SR), which obscures where a policy succeeds or fails along a multi-step manipulation task. We argue that subgoal-level reporting should become routine: for each trajectory, a vector of per-subgoal SRs that makes partial competence visible (e.g., grasp vs. pour). We propose a blueprint for StepEval, a cost-aware plug-in evaluation framework that utilizes vision-language models (VLMs) as automated judges of subgoal outcomes from ...

ID: 2509.19524v1 cs.AI, cs.RO

arXiv PDF

📄 Meta-Memory: Retrieving and Integrating Semantic-Spatial Memories for Robot Spatial Reasoning

2025-09-26

Авторы:

Yufan Mao, Hanjing Ye, Wenlong Dong, Chengjie Zhang, Hong Zhang

#### Контекст Проблема эффективного навигационного поведения роботов в сложных пространственных средах остается весьма актуальной в современной робототехнике. Основной задачей здесь является моделирование и моделирование семантических и пространственных памяти, которые позволяют роботу отвечать на запросы о расположении объектов, а также выполнять логические операции в пространстве. Несмотря на то, что ранее были предложены модели, собирающие информацию о пространстве, многие из них не рассматривали обобщенную стратегию для обработки и интеграции семантических и пространственных памятных элементов. Наша модель Meta-Memory предлагает новый подход к этой проблеме, основываясь на обучении г LLM-агента, который может эффективно обрабатывать сложные запросы к памяти и предоставлять точные ответы на пространственные запросы. #### Метод Meta-Memory представляет собой новую архитектуру, основанную на глубоком обучении и LLM-технологиях. Мы реализовали метод, который может хранить семантические и пространственные данные в высоко-резолюционной памяти. Работа агента основывается на двух ключевых компонентах: **семантической интеграции** и **пространственной интеграции**. Мы используем генеративные модели LLM для получения высококачественных представлений объектов и их расположений. Для решения задач пространственного логического поиска и моделирования мы разработали систему, которая может обрабатывать запросы в естественной речи и ретроактивно интегрировать ответы в свое понимание пространства. #### Результаты Мы проверили производительность Meta-Memory на двух разных наборах данных: **SpaceLocQA** и **NaVQA**. На SpaceLocQA, который содержит различные сценарии пространственного разума, Meta-Memory показал существенный выигрыш в точности при сравнении с другими методами. На бенчмарке NaVQA, который используется для оценки пространственного разума роботов, был получен результат, который также значительно превосходит текущие решения. Мы также провели эксперименты на реальных роботских платформах, подтвердив, что Meta-Memory может работать в реальных условиях и предоставлять точные ответы на пространственные запросы. #### Значимость Наша модель открывает новые возможности в области пространственного разума роботов. Она может быть применена в различных задачах, таких как виртуальные помощники, системы мониторинга, а также в разработке систем интерактивного обучения. Наш подход позволяет роботу эффективно обрабатывать пространственные запросы, что значительно повышает удобство и реализуемость в сложных пространственных средах. Мы также отметили, что наша модель имеет потенциал для расширения в области общей предметной памяти и

Annotation:

Navigating complex environments requires robots to effectively store observations as memories and leverage them to answer human queries about spatial locations, which is a critical yet underexplored research challenge. While prior work has made progress in constructing robotic memory, few have addressed the principled mechanisms needed for efficient memory retrieval and integration. To bridge this gap, we propose Meta-Memory, a large language model (LLM)-driven agent that constructs a high-densi...

ID: 2509.20754v1 cs.AI, cs.RO

arXiv PDF

📄 RDAR: Reward-Driven Agent Relevance Estimation for Autonomous Driving

2025-09-26

Авторы:

Carlo Bosio, Greg Woelki, Noureldin Hendy, Nicholas Roy, Byungsoo Kim

## Контекст Одним из ключевых аспектов автономного вождения является эффективное использование ресурсов для обработки сложных сцен, содержащих много агентов (таких как пешеходы, другие автомобили и препятствия). В отличие от человека, который сосредоточивается только на нескольких самых значимых агентах, автоматизированные системы обрабатывают все агенты в сцене, даже если они не приносят критического вклада в принятие решений. Это приводит к повышению нагрузки на вычислительные мощности и замедлению реакции. В настоящей работе мы адресуем эту проблему, предлагая метод, который научится определять и эксклюзировать ненужные агенты, облегчив работу системы. Наша мотивация заключается в сокращении вычислительных затрат, повышении реакции и улучшении безопасности автономных систем. ## Метод Мы предлагаем RDAR (Reward-Driven Agent Relevance Estimation), стратегию, основанную на марковских процессах, для вычисления меры значимости каждого агента в сцене. Ключевым элементом метода является маскирование агентов, которые не влияют на действия управляемого транспортного средства. Для этого мы используем маркерную архитектуру, где бинарный маскирующий вектор определяет, какие агенты остаются в входных данных для предварительно обученной сети. Мы используем функцию награды, которая определяет степень полезности каждого агента в успешном выполнении задачи. Для обучения используется алгоритм реинфорсмента, чтобы научиться эффективно выделять важных агентов. ## Результаты Мы проверили RDAR на сети BEVFormer, предназначенной для обработки сцен автономного вождения, используя данные от Waymo Open Dataset. Мы сравнили RDAR с существующими методами определения важности агентов. Наши результаты показали, что RDAR существенно сокращает количество обрабатываемых агентов, снижая вычислительные затраты, при этом поддерживая высокий уровень безопасности и эффективности вождения. Также мы обнаружили, что RDAR выбирает только те агенты, которые действительно влияют на решения, улучшая при этом производительность и точность. ## Значимость Предлагаемый подход имеет широкие возможности применения в автономных системах, таких как автомобили, где эффективность вычислительных ресурсов и быстрота реакции критичны. Он позволяет сократить нагрузку на процессоры, улучшить производительность и уменьшить риск ошибок при принятии решений. Это может привести к более безопасным и эффективным автономным системам, которые будут иметь более низкий энергоэффективный стоимость и более высокий уровень доверия от пользователей. ## Выводы Мы представили RDAR, метод оц

Annotation:

Human drivers focus only on a handful of agents at any one time. On the other hand, autonomous driving systems process complex scenes with numerous agents, regardless of whether they are pedestrians on a crosswalk or vehicles parked on the side of the road. While attention mechanisms offer an implicit way to reduce the input to the elements that affect decisions, existing attention mechanisms for capturing agent interactions are quadratic, and generally computationally expensive. We propose RDAR...

ID: 2509.19789v1 cs.LG, cs.AI, cs.RO

arXiv PDF

📄 SQS: Enhancing Sparse Perception Models via Query-based Splatting in Autonomous Driving

2025-09-24

Авторы:

Haiming Zhang, Yiyao Zhu, Wending Zhou, Xu Yan, Yingjie Cai, Bingbing Liu, Shuguang Cui, Zhen Li

#### Контекст В последние годы наблюдается всестороннее развитие систем автоматизированного вождения, но одним из ключевых вызовов в этой области является эффективное использование перспективных моделей для перспективного видения (SPMs). Традиционные модели по умолчанию используют тяжелые слои и операции, что приводит к неэффективности в вычислениях и затруднению предсказания в реальном времени. Кроме того, возникают проблемы с памятью, особенно при обработке больших объемов данных. Чтобы улучшить эти модели, необходимо акцентировать внимание на создании новых методов, которые бы значительно сократили затраты ресурсов при сохранении высокой точности предсказаний. Одним из таких методов является инновационный подход, призванный расширить возможности SPMs, особенно в сфере автономного вождения. #### Метод Мы предлагаем SQS (Sparse Query-based Splatting), метод, который вводит новую методологию для предварительного обучения моделей с запросами. SQS основывается на технологии сплетения (splatting), которая позволяет проводить предварительное обучение с использованием запросов для построения тонкой контекстной структуры. Мы используем самостоятельное саперство (self-supervised learning) для реконструкции многовидовых изображений и глубинных карт, используя 3D-гауссовые представления, выводимые из запросов. Это способствует улучшению точности предсказаний и эффективности моделей. В ходе оптимизации мы интегрируем предварительно обученные запросы в существующие модели, чтобы достичь более сильной связи между предварительным и основным обучением. #### Результаты Мы проверили эффективность нашего подхода на основе нескольких бенчмарковых данных по автономному вождению. Мы обнаружили, что модели, обученные с помощью SQS, показали значительные улучшения в предсказании занятости (iIoU) и 3D-обнаружении (NDS) по сравнению с исходными SPMs. Мы сравнили наши результаты с другими технологиями предварительного обучения SPMs и получили выигрыш в маргине +1.3 mIoU в задаче предсказания занятости и +1.0 NDS в задаче 3D-обнаружения. Это показывает, что SQS может эффективно улучшить работу моделей в автономном вождении. #### Значимость Предложенный подход имеет широкий спектр приложений в различных областях, но особенно важен для систем автономного вождения. SQS позволяет повысить точность и эффективность моделей, что улучшает возможности систем для быстрого и точного обнаружения объектов вокруг автомобиля. Это может привести к более безопасным и эффективным системам автоматизированного управления. Мы также планируем расширить применение нашего метода на другие задачи, такие как

Annotation:

Sparse Perception Models (SPMs) adopt a query-driven paradigm that forgoes explicit dense BEV or volumetric construction, enabling highly efficient computation and accelerated inference. In this paper, we introduce SQS, a novel query-based splatting pre-training specifically designed to advance SPMs in autonomous driving. SQS introduces a plug-in module that predicts 3D Gaussian representations from sparse queries during pre-training, leveraging self-supervised splatting to learn fine-grained co...

ID: 2509.16588v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Text-Scene: A Scene-to-Language Parsing Framework for 3D Scene Understanding

2025-09-24

Авторы:

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang

## Контекст В последние годы в области искусственного интеллекта растет интерес к пониманию трехмерных сцен (3D scene understanding), которое является ключевым для развития эмбедидных систем искусственного интеллекта. Требуется не только распознавать объекты, но и понимать их свойства, отношения и взаимодействия в пространстве. Однако существующие методы, ориентированные на 2D изображения, сталкиваются с трудностями при переходе к 3D-сценам, из-за более сложной структуры данных и отсутствия больших 3D-датасетов для обучения. Это приводит к ограниченности моделей в понимании сложных пространственных структур и аффордансов. Целью данного исследования является развитие рам framworkа, который автоматически парсит 3D-сцены в текстовые описания, чтобы обеспечить общий подход к пониманию трехмерного пространства через естественный язык. ## Метод Текст-Scene (Text-Scene) — это фреймворк, который автоматически парсит 3D-сцены в текстовые описания. Он включает два основных этапа. В первом этапе используется геометрический анализ для выявления объектов и их атрибутов, а также для выявления пространственных отношений между ними. Во втором этапе используется Multimodal Large Language Model (MLLM) для генерации четкого и понятного текста, охватывающего объекты, их характеристики и пространственные связи. Фреймворк использует как геометрические данные 3D-сцен, так и языковые модели для создания полных и четких описаний. Эта структура позволяет связать трехмерную сцену с её языковым представлением, не требуя участия человека в процессе. ## Результаты Для оценки эффективности Text-Scene проведены эксперименты на нескольких 3D-бенчмарках. Модель производит текстовые описания, которые включают объектные атрибуты, свойства, отношения и другие характеристики. Эти описания показали высокую точность и полноту при сравнении с другими подходами. Также была проведена оценка возможности применения полученных описаний в задачах планирования (датасет InPlan3D), где Text-Scene показала свою способность помочь моделям MLLM в решении задач, связанных с трехмерным пространством. ## Значимость Текст-Scene предлагает новый подход к 3D scene understanding, который может быть применен в различных областях, таких как виртуальная и реальность, автоматизация производств, интерактивные системы и другие ситуации, где необходимо понимание пространства. Основное преимущество этого фреймворка заключается в том, что он может автоматически сгенерировать понятные описания 3D-сцен, что позволяет улучшить взаимодействие систем с трехмерными средами. Развитие таких технологий может иметь значите

Annotation:

Enabling agents to understand and interact with complex 3D scenes is a fundamental challenge for embodied artificial intelligence systems. While Multimodal Large Language Models (MLLMs) have achieved significant progress in 2D image understanding, extending such capabilities to 3D scenes remains difficult: 1) 3D environment involves richer concepts such as spatial relationships, affordances, physics, layout, and so on, 2) the absence of large-scale 3D vision-language datasets has posed a signifi...

ID: 2509.16721v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 VideoArtGS: Building Digital Twins of Articulated Objects from Monocular Video

2025-09-24

Авторы:

Yu Liu, Baoxiong Jia, Ruijie Lu, Chuyue Gan, Huayu Chen, Junfeng Ni, Song-Chun Zhu, Siyuan Huang

## Контекст Создание цифровых двойников для обобщенных объектов, особенно тех, что имеют сложную структуру и могут двигаться (например, люди, животные или механизмы), представляет одну из самых сложных задач в области компьютерного зрения. Эти объекты обычно состоят из нескольких частей, которые могут двигаться взаимодействуя друг с другом, и их моделирование требует учета ограниченного количества входных данных, таких как монокулярное видео. Цифровые двойники не только позволяют визуально представлять эти объекты, но и позволяют анализировать их поведение в различных условиях. Тем не менее, возникают сложности при построении таких моделей из односторонних видео, так как необходимо эффективно разделить геометрию объекта, его динамику и детализацию частей, что создает определенные ограничения в работе. ## Метод Мы предлагаем VideoArtGS, новую методику для построения цифровых двойников сложных объектов, основанную на монокулярном видео. Метод включает в себя несколько ключевых компонентов. Во-первых, мы используем предварительно обученные модели морфологического анализа, чтобы получить начальные оценки положения и движения частей. Затем, мы применяем сложную архитектуру, которая соединяет модель морфологического анализа с нейронными сетями для расчета динамической модели, содержащей все части объекта. Это позволяет учесть не только геометрию, но и динамику движения. Наконец, мы применяем специальный метод, который позволяет стабилизировать и очистить данные, чтобы избежать неточностей. ## Результаты Мы провели подробные эксперименты, используя различные модели и данные для сравнения. Наши результаты показывают, что VideoArtGS демонстрирует значительное превосходство по сравнению с другими методами в области построения цифровых двойников. Мы измеряли ошибки в построении геометрии и динамики, и видим, что VideoArtGS сокращает эти ошибки приблизительно в два раза по сравнению с предшествующими подходами. Также мы проверили нашу модель на различных типах движущихся объектов, включая людей, животных и механизмы, и продемонстрировали, что она работает эффективно в разных условиях. ## Значимость Наша работа имеет многочисленные применения в области виртуальной реальности, анимации, моделирования и анализа движения. Например, она может использоваться в компьютерных играх для создания реалистичных моделей персонажей, в разработке интерактивных приложений для учебных целей или в области тренировочных программ для спорта. Благодаря точности и универсальности VideoArtGS, мы устанавливаем новый стандарт для построения цифровых двойников сложных об

Annotation:

Building digital twins of articulated objects from monocular video presents an essential challenge in computer vision, which requires simultaneous reconstruction of object geometry, part segmentation, and articulation parameters from limited viewpoint inputs. Monocular video offers an attractive input format due to its simplicity and scalability; however, it's challenging to disentangle the object geometry and part dynamics with visual supervision alone, as the joint movement of the camera and p...

ID: 2509.17647v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 A Nascent Taxonomy of Machine Learning in Intelligent Robotic Process Automation

2025-09-23

Авторы:

Lukas Laakmann, Seyyid A. Ciftci, Christian Janiesch

## Контекст Роботизированная процессная автоматизация (RPA) — это легковесная методика автоматизации бизнес-процессов с помощью программных роботов, которые эмулируют пользовательские действия на уровне графического интерфейса. Хотя RPA набрала популярность благодаря своей стоимостной эффективности и возможности автоматизировать правильно структурированные, правильные задачи, ее символическая природа ограничивает возможности автоматизации более сложных задач, которые в настоящее время выполняются человеческими агентами. Концепции машинного обучения, позволяющие создавать интеллектуальные RPA, открывают новые возможности для расширения автоматизируемых задач. В настоящей работе приведен обзор литературы, который исследует связи между RPA и машинным обучением, а также предлагает систематизировать концепцию интеллектуальной RPA в рамках таксономии. Эта таксономия включает две мета-характеристики: интеграция RPA с машинным обучением (RPA-ML integration) и взаимодействие между ними (RPA-ML interaction), которые в свою очередь состоят из восьми размерностей: архитектура и экосистема, возможности, база данных, уровень интеллектуализации, техническая глубина интеграции, среда развертывания, фаза жизненного цикла и отношение пользователя к роботу. ## Метод Методология построения таксономии основывается на тщательном анализе существующей литературы по RPA и машинному обучению. Авторы проводят интеграцию этих двух подходов, исследуя их взаимодействие и связи, чтобы создать новую структуру размещения RPA в контексте интеллектуализации. Основная методика заключается в анализе технических, архитектурных и процессных аспектов RPA, а также в определении как мета-характеристик, так и размерностей для описания их взаимодействия. Работа также включает в себя определение ключевых аспектов интеллектуальных RPA, таких как методы машинного обучения, используемые в RPA, и их определение в контексте различных сценариев использования. ## Результаты Результатом работы является новая таксономия, которая позволяет классифицировать интеллектуальные RPA в соответствии с двумя мета-характеристиками и восьми размерностями. Эти размерности позволяют описать различные аспекты интеллектуализации RPA, включая техническую насыщенность интеграции, возможности автоматизации, фазу жизненного цикла процесса, а также отношение между пользователем и роботом. Кроме того, авторы приводят примеры реализации интеллектуальных RPA, которые подчеркивают значимость каждой из

Annotation:

Robotic process automation (RPA) is a lightweight approach to automating business processes using software robots that emulate user actions at the graphical user interface level. While RPA has gained popularity for its cost-effective and timely automation of rule-based, well-structured tasks, its symbolic nature has inherent limitations when approaching more complex tasks currently performed by human agents. Machine learning concepts enabling intelligent RPA provide an opportunity to broaden the...

ID: 2509.15730v1 cs.AI, cs.RO

arXiv PDF

📄 Hierarchical Reinforcement Learning with Low-Level MPC for Multi-Agent Control

2025-09-23

Авторы:

Max Studt, Georg Schildbach

## Контекст Управление в динамических и ограниченных средах остается сложной задачей, особенно при работе с многоагентными системами. Одной из главных проблем является поддержание безопасного и координированного поведения в среде с часто меняющимися условиями. Большинство методов, основанных на глубоком обучении, страдают от неэффективности выбора при обучении и трудностях в обеспечении надежности. Модель-ориентированные подходы, напротив, зависят от предварительно определенных спецификаций и часто не могут хорошо обобщаться на различные ситуации. Улучшение комбинированных методов, которые объединяют модель-ориентированную контрольную технику с обучением с подкреплением, может стать ответом на эти проблемы. ## Метод Мы предлагаем архитектуру, которая объединяет турбо-решения с помощью модели подкрепления (RL) для высокоуровневого планирования и низкоуровневый контроль модели оптимального управления (MPC) для выполнения динамически безопасных и точных действий. В многоагентной системе это подразумевает, что ролевые политики высшего уровня выбирают абстрактные цели в структурированных зонах интереса, в то время как MPC обеспечивает динамически безопасное движение. Для обучения высокоуровневого поведения мы используем динамические регионы интереса (ROIs), которые генерируются совместно с помощью СВОИ. Это позволяет уменьшить пространство поиска и улучшить обучение. ## Результаты Мы провели эксперименты на бенчмарке "преследователь-преследователь" (predator-prey), сравнив нашу гибридную систему с базовыми методами, включая полностью модель-ориентированные и полностью обучаемые подкреплением. Наши результаты показывают, что мощность нашего подхода заключается в боевом выигрыше при оценке награды, безопасности и консистентности. Например, в сценарии с тремя агентами в среде с ловушками воздушных змей, метод с MPC увеличил значение награды на 20%, уменьшил число аварийных ситуаций на 30% и повысил консистентность выполнения задачи. ## Значимость Наш подход может быть применен в различных сценариях, таких как мобильные роботы, системы поддержки решений, игровые системы и другие системы с многоагентным управлением. Преимущества заключаются в том, что мы можем обеспечить безопасность, эффективность и универсальность решений в средах с высоким уровнем динамики и ограничений. Это имеет большой потенциал для развития технологий, например, для роботов-помощников и мультироботических систем. ## Выводы Наши эксперименты подтвердили высокую эффективность комбинированного подхода, который объединяет г

Annotation:

Achieving safe and coordinated behavior in dynamic, constraint-rich environments remains a major challenge for learning-based control. Pure end-to-end learning often suffers from poor sample efficiency and limited reliability, while model-based methods depend on predefined references and struggle to generalize. We propose a hierarchical framework that combines tactical decision-making via reinforcement learning (RL) with low-level execution through Model Predictive Control (MPC). For the case of...

ID: 2509.15799v1 eess.SY, cs.AI, cs.RO, cs.SY, math.OC

arXiv PDF

📄 Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonstrations

2025-09-23

Авторы:

Yujie Zhu, Charles A. Hepburn, Matthew Thorpe, Giovanni Montana

Опубликовано: 2024-02-22 ## Контекст Успешное применение методов машинного обучения в задачах реального мира часто зависит от подачи достаточного количества качественных данных. Однако в случае с реинфорсмент-лирнингом (RL), спарсительные награды часто требуют дополнительных мер для эффективного обучения. Демонстрации (предварительно выполненные задачи) могут существенно ускорить обучение, но их использование требует точного понимания, когда лучше следовать за демонстрацией, а когда — учитывать собственную политику. Это особенно актуально при ограниченном количестве демонстраций. Мы предлагаем фреймворм Smooth Policy Regularisation from Demonstrations (SPReD), который стремится решить эту проблему, предоставив агенту возможность в зависимости от уровня неопределенности выбирать стратегию. ## Метод SPReD обращается к методам ансамбля для оценки распределения Q-значений для демонстрационных и собственных действий агента. Это позволяет конкретизировать неопределенность каждого варианта действия. Для оценки совпадения с демонстрацией, мы предлагаем два метода: 1. **Пробабильный подход** — оценивает вероятность того, что демонстрация выдаст лучшую награду. 2. **Подход на основе приближения прибыли** — изменяет вес копирования в зависимости от статистической значимости. В отличие от бинарных методов (например, Q-filter), SPReD применяет непрерывные регуляризационные взвеши, уменьшая градиентную нестабильность во время обучения. ## Результаты Мы проверили SPReD на 8 задачах робототехники, включая задачи с неопределенными и спарсительными наградами. Задачи были выполнены на основе данных с двумя симуляторами: PyBullet и Isaac Gym. Наши результаты показали, что SPReD превосходит существующие методы на 14 раз в сложных задачах, сохраняя низкую чувствительность к качеству и количеству демонстраций. Эти результаты демонстрируют высокую универсальность и стабильность SPReD. ## Значимость SPReD может быть применен в различных задачах, где необходимо быстрое улучшение поведения на основе ограниченного числа примеров. Например, в робототехнике, интерфейсах с пользователем, или в ситуациях, где предоставить много примеров невозможно. Он обеспечивает более гибкий и надёжный подход к обучению от RL, позволяя эффективно использовать небольшие числа демонстраций. ## Выводы Мы представили фреймворм SPReD для RL с недостатком наград, который использует методы ансамбля для оценки неопределенности демонстраций и собственных действий. SPReD предоставляет гибкий и эффективный способ решать задачи, где демонстрации используются в узком количестве. Мы планируем расширить исследовани

Annotation:

In reinforcement learning with sparse rewards, demonstrations can accelerate learning, but determining when to imitate them remains challenging. We propose Smooth Policy Regularisation from Demonstrations (SPReD), a framework that addresses the fundamental question: when should an agent imitate a demonstration versus follow its own policy? SPReD uses ensemble methods to explicitly model Q-value distributions for both demonstration and policy actions, quantifying uncertainty for comparisons. We d...

ID: 2509.15981v1 cs.LG, cs.AI, cs.RO, stat.ML

arXiv PDF

1
2
7
8
9
10
11
12
13

Показано 81 - 90 из 126 записей