Robotic Skill Diversification via Active Mutation of Reward Functions in Reinforcement Learning During a Liquid Pouring Task

2509.18463v1 cs.RO, cs.LG 2025-09-25
Авторы:

Jannick van Buuren, Roberto Giglio, Loris Roveda, Luka Peternel

Резюме на русском

## Контекст Роботические системы, основанные на утилизации методов машинного обучения, возникают в более широких сферах применения. Одна из важных проблем в данной области — обеспечение диверсификации роботов в своих технических возможностях, чтобы они могли выполнять разнообразные задачи. Одним из перспективных подходов является использование методик машинного обучения с наградой (Reinforcement Learning, RL), но при этом возникают проблемы с синтезом многообразия стратегий и устойчивостью при обучении. Данная работа рассматривает способы стимулирования роботов к формированию разнообразных способностей в задаче полива жидкости, чтобы сделать их более универсальными и гибкими. ## Метод Для стимулирования роботов к разнообразию способностей в рамках задачи полива жидкости разработана новая методика для мутации награды в RL. Использовалась модель награды, основанная на компромиссе между точностью, временем и усилиями. Мутация награды происходила применением гауссовского шума к весам различных термов модели. Эта методика была реализована в симуляционной среде NVIDIA Isaac Sim. Робот — Франка Эмика Панда — был использован для выполнения задачи полива жидкости из стакана в контейнер. Основной роботоводящий алгоритм — Proximal Policy Optimization. Для поиска разнообразия в роботоводущих стратегиях был проведен исследовательский эксперимент, в котором изменялись веса награды в модели для формирования различных поведенческих политик. ## Результаты В результате исследования было показано, что различные конфигурации весов в модели награды приводят к появлению разнообразных поведенческих политик. Например, робот может не только выполнять основную задачу полива, но и выполнять дополнительные задачи, такие как подчистка края контейнера, перемешивание жидкости или полив. Полученные результаты демонстрируют широкий спектр роботоводящих стратегий, которые могут быть полезны в различных условиях. Эта методика демонстрирует потенциал для повышения гибкости роботов в выполнении задач в различных условиях. ## Значимость Развитие роботов, способных изучать разнообразные способности в задачах, может привести к созданию более универсальных и адаптивных систем. Этот подход может быть применен в сферах, где необходимо выполнение различных ролей и задач, например, в автоматизации производственных процессов или в сфере роботов-помощников. Данный подход также может способствовать улучшению удобства и надежности роботов в работе с людьми. ## Выводы Исследование показало, что мутация награды в RL может быть эффективной методикой для получения разнообразных способностей у роботов в задачах полива

Abstract

This paper explores how deliberate mutations of reward function in reinforcement learning can produce diversified skill variations in robotic manipulation tasks, examined with a liquid pouring use case. To this end, we developed a new reward function mutation framework that is based on applying Gaussian noise to the weights of the different terms in the reward function. Inspired by the cost-benefit tradeoff model from human motor control, we designed the reward function with the following key terms: accuracy, time, and effort. The study was performed in a simulation environment created in NVIDIA Isaac Sim, and the setup included Franka Emika Panda robotic arm holding a glass with a liquid that needed to be poured into a container. The reinforcement learning algorithm was based on Proximal Policy Optimization. We systematically explored how different configurations of mutated weights in the rewards function would affect the learned policy. The resulting policies exhibit a wide range of behaviours: from variations in execution of the originally intended pouring task to novel skills useful for unexpected tasks, such as container rim cleaning, liquid mixing, and watering. This approach offers promising directions for robotic systems to perform diversified learning of specific tasks, while also potentially deriving meaningful skills for future tasks.

Ссылки и действия