Search-Based Credit Assignment for Offline Preference-Based Reinforcement Learning

2508.15327v1 cs.AI, cs.LG 2025-08-23

Авторы:

Xiancheng Gao, Yufeng Shi, Wengang Zhou, Houqiang Li

Резюме на русском

## Контекст Обучение с подкреплением (RL) широко используется для решения сложных задач, но наиболее успешными подходами являются те, которые полагаются на доступ к окружению и могут исправлять ошибки в процессе обучения. Однако в некоторых ситуациях доступа к окружению нет, и требуется метод, позволяющий обучаться только из уже существующих данных. Такие ситуации встречаются в области **выборочного RL**, где модель обучается с помощью статических наборов данных, не требуя дополнительных взаимодействий с окружением. Одна из сложностей выборочного RL заключается в том, что для эффективного обучения требуются хорошо определенные функции награды. Их разработка трудоемка и дорогостоящая, что ограничивает применение данного подхода. Другой подход — использование **людского вклада**, но он также имеет ограничения. Например, опытные демонстрации могут предоставлять строгую пошаговую наставку, но их сбор дорогостоящий, а поведение моделей часто ограничено теми режимами, которые показал эксперт. Форма людского вклада в виде **предпочтений** является более гибкой, но существует проблема **кредитного назначения** (credit assignment): не всегда понятно, какие части траектории действий вносят наиболее весомый вклад в результат. Таким образом, необходима новая методология, которая объединит достоинства обоих форм людского вклада. ## Метод **Search-Based Preference Weighting (SPW)** — это метод, призванный решить проблему кредитного назначения в выборочном RL. Он работает следующим образом: для каждой траектории, полученной с помощью предпочтений, SPW ищет наиболее похожие состояния-действия из существующих экспертных демонстраций. Эти состояния-действия являются ключевыми для определения того, какой фрагмент траектории внес максимальный вклад в суммарный результат. Для каждого из этих состояний-действий SPW вычисляет вес, который указывает на их вклад в полученный результат. Эти веса, в свою очередь, используются для уточнения траектории и лучшего назначения кредита. Технически SPW обращается к **ближайшему соседу (Nearest Neighbor)** для поиска экспертных демонстраций, используя метрики сходства, такие как **Cosine Similarity**. Это позволяет вести поиск в высокомерном пространстве, используя сохраненные данные экспертного поведения. Основное преимущество метода заключается в его **гибкости** в использовании двух форм людского вклада, что делает его более эффективным в ситуациях, когда обе формы могут быть использованы одновременно. ## Результаты Эксперименты проводились на сложных задачах **робот-манипуляции**, где SPW был сравнен с другими методами, и

Abstract

Offline reinforcement learning refers to the process of learning policies from fixed datasets, without requiring additional environment interaction. However, it often relies on well-defined reward functions, which are difficult and expensive to design. Human feedback is an appealing alternative, but its two common forms, expert demonstrations and preferences, have complementary limitations. Demonstrations provide stepwise supervision, but they are costly to collect and often reflect limited expert behavior modes. In contrast, preferences are easier to collect, but it is unclear which parts of a behavior contribute most to a trajectory segment, leaving credit assignment unresolved. In this paper, we introduce a Search-Based Preference Weighting (SPW) scheme to unify these two feedback sources. For each transition in a preference labeled trajectory, SPW searches for the most similar state-action pairs from expert demonstrations and directly derives stepwise importance weights based on their similarity scores. These weights are then used to guide standard preference learning, enabling more accurate credit assignment that traditional approaches struggle to achieve. We demonstrate that SPW enables effective joint learning from preferences and demonstrations, outperforming prior methods that leverage both feedback types on challenging robot manipulation tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Search-Based Credit Assignment for Offline Preference-Based Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Mathematical Framing for Different Agent Strategies

Sequential Enumeration in Large Language Models

Educational Cone Model in Embedding Vector Spaces

A Benchmark of Causal vs Correlation AI for Predictive Maintenance

fMRI2GES: Co-speech Gesture Reconstruction from fMRI Signal with Dual Brain Deco...

Навигация