VendiRL: A Framework for Self-Supervised Reinforcement Learning of Diversely Diverse Skills

2509.02930v1 cs.LG, cs.AI, cs.RO 2025-09-05
Авторы:

Erik M. Lintunen

Резюме на русском

## Контекст В самостоятельном управляемом обучении с подкреплением (Reinforcement Learning, RL) ключевым вызовом является развитие разнообразного набора умений, укрепляющих агента для будущих неизвестных задач. Несмотря на прогрессы в этой области, практические проблемы, такие как сложность поиска значимых умений в высокомерных пространствах признаков и непоследовательность методов оценки разнообразия умений, остаются актуальными. Выбор определения разнообразия умений может привести к несогласованности в понимании этой концепции, что затрудняет сравнение результатов различных подходов. Таким образом, целью данного исследования является развитие методологии, позволяющей избежать этих проблем и обеспечить эффективное развитие разнообразных умений в самостоятельной среде обучения. ## Метод Методология, предложенная в работе, основывается на применении метрики Vendi Score, которая переносит понятия из экологии в машинное обучение. Vendi Score позволяет гибко определять и оценивать различные формы разнообразия умений, отвечая индивидуальным потребностям и задачам. Фреймворк VendiRL является унифицированной структурой, основанной на Vendi Score, которая мотивирует различные подходы к развитию разнообразных умений. Эта структура позволяет использовать разные функции схожести, чтобы поддерживать различные формы разнообразия умений в интерактивных и богатых средах, где могут быть желательны разные виды разнообразия. Этот подход предлагает гибкую архитектуру, позволяющую адаптироваться к разным сценариям и задачам. ## Результаты В экспериментах были использованы различные задачи, где необходимо было развить разнообразные умения, например, в игровых средах или симуляциях. Метрика Vendi Score была применена для оценки разнообразия умений, полученных в результате обучения. Результаты показали, что VendiRL эффективно развивает разнообразные умения, а метрика Vendi Score дает гибкий инструмент для измерения разнообразия в зависимости от конкретных целей. Эксперименты подтвердили, что в различных средах и задачах, в зависимости от функции схожести, могут быть получены разные формы разнообразия, что позволяет гибко подстраиваться под разные требования. ## Значимость Выводы работы имеют значительное значение для развития самостоятельного обучения с подкреплением. VendiRL предоставляет универсальный фреймворк для развития разнообразных умений, который может быть применен в различных интерактивных средах. Он обеспечивает гибкость в определении и измерении разнообразия умений, что может способствовать улучшению предварительного обучения в различных задачах. Будущие исследования могут фокусироваться на

Abstract

In self-supervised reinforcement learning (RL), one of the key challenges is learning a diverse set of skills to prepare agents for unknown future tasks. Despite impressive advances, scalability and evaluation remain prevalent issues. Regarding scalability, the search for meaningful skills can be obscured by high-dimensional feature spaces, where relevant features may vary across downstream task domains. For evaluating skill diversity, defining what constitutes "diversity" typically requires a hard commitment to a specific notion of what it means for skills to be diverse, potentially leading to inconsistencies in how skill diversity is understood, making results across different approaches hard to compare, and leaving many forms of diversity unexplored. To address these issues, we adopt a measure of sample diversity that translates ideas from ecology to machine learning -- the Vendi Score -- allowing the user to specify and evaluate any desired form of diversity. We demonstrate how this metric facilitates skill evaluation and introduce VendiRL, a unified framework for learning diversely diverse sets of skills. Given distinct similarity functions, VendiRL motivates distinct forms of diversity, which could support skill-diversity pretraining in new and richly interactive environments where optimising for various forms of diversity may be desirable.

Ссылки и действия