Scalable Multi-Objective Robot Reinforcement Learning through Gradient Conflict Resolution

2509.14816v1 cs.RO, cs.LG 2025-09-20
Авторы:

Humphrey Munn, Brendan Tidd, Peter Böhm, Marcus Gallagher, David Howard

Резюме на русском

## Контекст В современной робототехнике использование Reinforcement Learning (RL) для обучения управляющих контроллеров для роботов является востребованным подходом. Однако, многие задачи требуют учета нескольких целей, которые представляют собой вектор величин. Агрегирование этих целей в один скалярный признак часто приводит к проблемам, таким как затрудненная настройка параметров, устойчивость к локальным оптимумам и повышенная сложность оптимизации. Эти ограничения ограничивают степень использования RL в реальных задачах, где необходимо учитывать несколько задач одновременно. Целью данной работы является развитие методов, позволяющих эффективно работать с несколькими целями, обеспечивая устойчивость и эффективность алгоритмов RL в робототехнике. ## Метод Разработанный подход, GCR-PPO, является модификацией метода Proximal Policy Optimization (PPO), добавляющей в него возможность обрабатывать несколько целей. Основой GCR-PPO лежит метод декомпозиции градиентов задач. В этой модели используется многоголоская критическая сеть, которая разделяет обучение на несколько отдельных целей. Для каждой задачи рассчитывается свой градиент, позволяя алгоритму разрешать конфликты между целями. Это позволяет уменьшить конфликты в градиентах, обеспечивая устойчивость и эффективность обучения. Также в алгоритм внедрены механизмы для управления приоритетами целей, что дает возможность сконцентрироваться на наиболее важных задачах. ## Результаты Для оценки GCR-PPO проводились эксперименты на нескольких стандартных наборах данных, включая IsaacLab, который позволяет моделировать задачи манипуляции и локамоции. Результаты показали, что GCR-PPO показывает высокую степень скейлируемости и эффективности, сравнимой с традиционными методами PPO, но с значительно меньшим риском застревания в локальных оптимумах. Также было проведено сравнение с аналогичными методами, включая Parallel PPO. Главным положительным результатом является то, что GCR-PPO позволяет лучше учитывать конфликты между целями, что приводит к более лучшей точности и стабильности результатов, особенно в случае задач с высоким конфликтом между целями. ## Значимость Результаты показывают, что GCR-PPO может быть применен в различных областях робототехники, где требуется учет нескольких целей. Это включает задачи манипуляции, локамоции и другие, где необходима высокая точность и устойчивость. Главные преимущества GCR-PPO заключаются в том, что он решает проблему конфликта градиентов, что позволяет эффективно обучать контроллеры, не требуя ручной настройки параметров. Это может

Abstract

Reinforcement Learning (RL) robot controllers usually aggregate many task objectives into one scalar reward. While large-scale proximal policy optimisation (PPO) has enabled impressive results such as robust robot locomotion in the real world, many tasks still require careful reward tuning and are brittle to local optima. Tuning cost and sub-optimality grow with the number of objectives, limiting scalability. Modelling reward vectors and their trade-offs can address these issues; however, multi-objective methods remain underused in RL for robotics because of computational cost and optimisation difficulty. In this work, we investigate the conflict between gradient contributions for each objective that emerge from scalarising the task objectives. In particular, we explicitly address the conflict between task-based rewards and terms that regularise the policy towards realistic behaviour. We propose GCR-PPO, a modification to actor-critic optimisation that decomposes the actor update into objective-wise gradients using a multi-headed critic and resolves conflicts based on the objective priority. Our methodology, GCR-PPO, is evaluated on the well-known IsaacLab manipulation and locomotion benchmarks and additional multi-objective modifications on two related tasks. We show superior scalability compared to parallel PPO (p = 0.04), without significant computational overhead. We also show higher performance with more conflicting tasks. GCR-PPO improves on large-scale PPO with an average improvement of 9.5%, with high-conflict tasks observing a greater improvement. The code is available at https://github.com/humphreymunn/GCR-PPO.

Ссылки и действия