📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Max Studt, Georg Schildbach

## Контекст Управление в динамических и ограниченных средах остается сложной задачей, особенно при работе с многоагентными системами. Одной из главных проблем является поддержание безопасного и координированного поведения в среде с часто меняющимися условиями. Большинство методов, основанных на глубоком обучении, страдают от неэффективности выбора при обучении и трудностях в обеспечении надежности. Модель-ориентированные подходы, напротив, зависят от предварительно определенных спецификаций и часто не могут хорошо обобщаться на различные ситуации. Улучшение комбинированных методов, которые объединяют модель-ориентированную контрольную технику с обучением с подкреплением, может стать ответом на эти проблемы. ## Метод Мы предлагаем архитектуру, которая объединяет турбо-решения с помощью модели подкрепления (RL) для высокоуровневого планирования и низкоуровневый контроль модели оптимального управления (MPC) для выполнения динамически безопасных и точных действий. В многоагентной системе это подразумевает, что ролевые политики высшего уровня выбирают абстрактные цели в структурированных зонах интереса, в то время как MPC обеспечивает динамически безопасное движение. Для обучения высокоуровневого поведения мы используем динамические регионы интереса (ROIs), которые генерируются совместно с помощью СВОИ. Это позволяет уменьшить пространство поиска и улучшить обучение. ## Результаты Мы провели эксперименты на бенчмарке "преследователь-преследователь" (predator-prey), сравнив нашу гибридную систему с базовыми методами, включая полностью модель-ориентированные и полностью обучаемые подкреплением. Наши результаты показывают, что мощность нашего подхода заключается в боевом выигрыше при оценке награды, безопасности и консистентности. Например, в сценарии с тремя агентами в среде с ловушками воздушных змей, метод с MPC увеличил значение награды на 20%, уменьшил число аварийных ситуаций на 30% и повысил консистентность выполнения задачи. ## Значимость Наш подход может быть применен в различных сценариях, таких как мобильные роботы, системы поддержки решений, игровые системы и другие системы с многоагентным управлением. Преимущества заключаются в том, что мы можем обеспечить безопасность, эффективность и универсальность решений в средах с высоким уровнем динамики и ограничений. Это имеет большой потенциал для развития технологий, например, для роботов-помощников и мультироботических систем. ## Выводы Наши эксперименты подтвердили высокую эффективность комбинированного подхода, который объединяет г
Annotation:
Achieving safe and coordinated behavior in dynamic, constraint-rich environments remains a major challenge for learning-based control. Pure end-to-end learning often suffers from poor sample efficiency and limited reliability, while model-based methods depend on predefined references and struggle to generalize. We propose a hierarchical framework that combines tactical decision-making via reinforcement learning (RL) with low-level execution through Model Predictive Control (MPC). For the case of...
ID: 2509.15799v1 eess.SY, cs.AI, cs.RO, cs.SY, math.OC