Search-Based Credit Assignment for Offline Preference-Based Reinforcement Learning
2508.15327v1
cs.AI, cs.LG
2025-08-23
Авторы:
Xiancheng Gao, Yufeng Shi, Wengang Zhou, Houqiang Li
Резюме на русском
## Контекст
Обучение с подкреплением (RL) широко используется для решения сложных задач, но наиболее успешными подходами являются те, которые полагаются на доступ к окружению и могут исправлять ошибки в процессе обучения. Однако в некоторых ситуациях доступа к окружению нет, и требуется метод, позволяющий обучаться только из уже существующих данных. Такие ситуации встречаются в области **выборочного RL**, где модель обучается с помощью статических наборов данных, не требуя дополнительных взаимодействий с окружением.
Одна из сложностей выборочного RL заключается в том, что для эффективного обучения требуются хорошо определенные функции награды. Их разработка трудоемка и дорогостоящая, что ограничивает применение данного подхода. Другой подход — использование **людского вклада**, но он также имеет ограничения. Например, опытные демонстрации могут предоставлять строгую пошаговую наставку, но их сбор дорогостоящий, а поведение моделей часто ограничено теми режимами, которые показал эксперт. Форма людского вклада в виде **предпочтений** является более гибкой, но существует проблема **кредитного назначения** (credit assignment): не всегда понятно, какие части траектории действий вносят наиболее весомый вклад в результат. Таким образом, необходима новая методология, которая объединит достоинства обоих форм людского вклада.
## Метод
**Search-Based Preference Weighting (SPW)** — это метод, призванный решить проблему кредитного назначения в выборочном RL. Он работает следующим образом: для каждой траектории, полученной с помощью предпочтений, SPW ищет наиболее похожие состояния-действия из существующих экспертных демонстраций. Эти состояния-действия являются ключевыми для определения того, какой фрагмент траектории внес максимальный вклад в суммарный результат. Для каждого из этих состояний-действий SPW вычисляет вес, который указывает на их вклад в полученный результат. Эти веса, в свою очередь, используются для уточнения траектории и лучшего назначения кредита.
Технически SPW обращается к **ближайшему соседу (Nearest Neighbor)** для поиска экспертных демонстраций, используя метрики сходства, такие как **Cosine Similarity**. Это позволяет вести поиск в высокомерном пространстве, используя сохраненные данные экспертного поведения. Основное преимущество метода заключается в его **гибкости** в использовании двух форм людского вклада, что делает его более эффективным в ситуациях, когда обе формы могут быть использованы одновременно.
## Результаты
Эксперименты проводились на сложных задачах **робот-манипуляции**, где SPW был сравнен с другими методами, и
Abstract
Offline reinforcement learning refers to the process of learning policies
from fixed datasets, without requiring additional environment interaction.
However, it often relies on well-defined reward functions, which are difficult
and expensive to design. Human feedback is an appealing alternative, but its
two common forms, expert demonstrations and preferences, have complementary
limitations. Demonstrations provide stepwise supervision, but they are costly
to collect and often reflect limited expert behavior modes. In contrast,
preferences are easier to collect, but it is unclear which parts of a behavior
contribute most to a trajectory segment, leaving credit assignment unresolved.
In this paper, we introduce a Search-Based Preference Weighting (SPW) scheme to
unify these two feedback sources. For each transition in a preference labeled
trajectory, SPW searches for the most similar state-action pairs from expert
demonstrations and directly derives stepwise importance weights based on their
similarity scores. These weights are then used to guide standard preference
learning, enabling more accurate credit assignment that traditional approaches
struggle to achieve. We demonstrate that SPW enables effective joint learning
from preferences and demonstrations, outperforming prior methods that leverage
both feedback types on challenging robot manipulation tasks.
Ссылки и действия
Дополнительные ресурсы: