Robotic Skill Diversification via Active Mutation of Reward Functions in Reinforcement Learning During a Liquid Pouring Task
2509.18463v1
cs.RO, cs.LG
2025-09-25
Авторы:
Jannick van Buuren, Roberto Giglio, Loris Roveda, Luka Peternel
Резюме на русском
## Контекст
Роботические системы, основанные на утилизации методов машинного обучения, возникают в более широких сферах применения. Одна из важных проблем в данной области — обеспечение диверсификации роботов в своих технических возможностях, чтобы они могли выполнять разнообразные задачи. Одним из перспективных подходов является использование методик машинного обучения с наградой (Reinforcement Learning, RL), но при этом возникают проблемы с синтезом многообразия стратегий и устойчивостью при обучении. Данная работа рассматривает способы стимулирования роботов к формированию разнообразных способностей в задаче полива жидкости, чтобы сделать их более универсальными и гибкими.
## Метод
Для стимулирования роботов к разнообразию способностей в рамках задачи полива жидкости разработана новая методика для мутации награды в RL. Использовалась модель награды, основанная на компромиссе между точностью, временем и усилиями. Мутация награды происходила применением гауссовского шума к весам различных термов модели. Эта методика была реализована в симуляционной среде NVIDIA Isaac Sim. Робот — Франка Эмика Панда — был использован для выполнения задачи полива жидкости из стакана в контейнер. Основной роботоводящий алгоритм — Proximal Policy Optimization. Для поиска разнообразия в роботоводущих стратегиях был проведен исследовательский эксперимент, в котором изменялись веса награды в модели для формирования различных поведенческих политик.
## Результаты
В результате исследования было показано, что различные конфигурации весов в модели награды приводят к появлению разнообразных поведенческих политик. Например, робот может не только выполнять основную задачу полива, но и выполнять дополнительные задачи, такие как подчистка края контейнера, перемешивание жидкости или полив. Полученные результаты демонстрируют широкий спектр роботоводящих стратегий, которые могут быть полезны в различных условиях. Эта методика демонстрирует потенциал для повышения гибкости роботов в выполнении задач в различных условиях.
## Значимость
Развитие роботов, способных изучать разнообразные способности в задачах, может привести к созданию более универсальных и адаптивных систем. Этот подход может быть применен в сферах, где необходимо выполнение различных ролей и задач, например, в автоматизации производственных процессов или в сфере роботов-помощников. Данный подход также может способствовать улучшению удобства и надежности роботов в работе с людьми.
## Выводы
Исследование показало, что мутация награды в RL может быть эффективной методикой для получения разнообразных способностей у роботов в задачах полива
Abstract
This paper explores how deliberate mutations of reward function in
reinforcement learning can produce diversified skill variations in robotic
manipulation tasks, examined with a liquid pouring use case. To this end, we
developed a new reward function mutation framework that is based on applying
Gaussian noise to the weights of the different terms in the reward function.
Inspired by the cost-benefit tradeoff model from human motor control, we
designed the reward function with the following key terms: accuracy, time, and
effort. The study was performed in a simulation environment created in NVIDIA
Isaac Sim, and the setup included Franka Emika Panda robotic arm holding a
glass with a liquid that needed to be poured into a container. The
reinforcement learning algorithm was based on Proximal Policy Optimization. We
systematically explored how different configurations of mutated weights in the
rewards function would affect the learned policy. The resulting policies
exhibit a wide range of behaviours: from variations in execution of the
originally intended pouring task to novel skills useful for unexpected tasks,
such as container rim cleaning, liquid mixing, and watering. This approach
offers promising directions for robotic systems to perform diversified learning
of specific tasks, while also potentially deriving meaningful skills for future
tasks.
Ссылки и действия
Дополнительные ресурсы: