Scalable Multi-Objective Robot Reinforcement Learning through Gradient Conflict Resolution
2509.14816v1
cs.RO, cs.LG
2025-09-20
Авторы:
Humphrey Munn, Brendan Tidd, Peter Böhm, Marcus Gallagher, David Howard
Резюме на русском
## Контекст
В современной робототехнике использование Reinforcement Learning (RL) для обучения управляющих контроллеров для роботов является востребованным подходом. Однако, многие задачи требуют учета нескольких целей, которые представляют собой вектор величин. Агрегирование этих целей в один скалярный признак часто приводит к проблемам, таким как затрудненная настройка параметров, устойчивость к локальным оптимумам и повышенная сложность оптимизации. Эти ограничения ограничивают степень использования RL в реальных задачах, где необходимо учитывать несколько задач одновременно. Целью данной работы является развитие методов, позволяющих эффективно работать с несколькими целями, обеспечивая устойчивость и эффективность алгоритмов RL в робототехнике.
## Метод
Разработанный подход, GCR-PPO, является модификацией метода Proximal Policy Optimization (PPO), добавляющей в него возможность обрабатывать несколько целей. Основой GCR-PPO лежит метод декомпозиции градиентов задач. В этой модели используется многоголоская критическая сеть, которая разделяет обучение на несколько отдельных целей. Для каждой задачи рассчитывается свой градиент, позволяя алгоритму разрешать конфликты между целями. Это позволяет уменьшить конфликты в градиентах, обеспечивая устойчивость и эффективность обучения. Также в алгоритм внедрены механизмы для управления приоритетами целей, что дает возможность сконцентрироваться на наиболее важных задачах.
## Результаты
Для оценки GCR-PPO проводились эксперименты на нескольких стандартных наборах данных, включая IsaacLab, который позволяет моделировать задачи манипуляции и локамоции. Результаты показали, что GCR-PPO показывает высокую степень скейлируемости и эффективности, сравнимой с традиционными методами PPO, но с значительно меньшим риском застревания в локальных оптимумах. Также было проведено сравнение с аналогичными методами, включая Parallel PPO. Главным положительным результатом является то, что GCR-PPO позволяет лучше учитывать конфликты между целями, что приводит к более лучшей точности и стабильности результатов, особенно в случае задач с высоким конфликтом между целями.
## Значимость
Результаты показывают, что GCR-PPO может быть применен в различных областях робототехники, где требуется учет нескольких целей. Это включает задачи манипуляции, локамоции и другие, где необходима высокая точность и устойчивость. Главные преимущества GCR-PPO заключаются в том, что он решает проблему конфликта градиентов, что позволяет эффективно обучать контроллеры, не требуя ручной настройки параметров. Это может
Abstract
Reinforcement Learning (RL) robot controllers usually aggregate many task
objectives into one scalar reward. While large-scale proximal policy
optimisation (PPO) has enabled impressive results such as robust robot
locomotion in the real world, many tasks still require careful reward tuning
and are brittle to local optima. Tuning cost and sub-optimality grow with the
number of objectives, limiting scalability. Modelling reward vectors and their
trade-offs can address these issues; however, multi-objective methods remain
underused in RL for robotics because of computational cost and optimisation
difficulty. In this work, we investigate the conflict between gradient
contributions for each objective that emerge from scalarising the task
objectives. In particular, we explicitly address the conflict between
task-based rewards and terms that regularise the policy towards realistic
behaviour. We propose GCR-PPO, a modification to actor-critic optimisation that
decomposes the actor update into objective-wise gradients using a multi-headed
critic and resolves conflicts based on the objective priority. Our methodology,
GCR-PPO, is evaluated on the well-known IsaacLab manipulation and locomotion
benchmarks and additional multi-objective modifications on two related tasks.
We show superior scalability compared to parallel PPO (p = 0.04), without
significant computational overhead. We also show higher performance with more
conflicting tasks. GCR-PPO improves on large-scale PPO with an average
improvement of 9.5%, with high-conflict tasks observing a greater improvement.
The code is available at https://github.com/humphreymunn/GCR-PPO.
Ссылки и действия
Дополнительные ресурсы: