Pref-GUIDE: Continual Policy Learning from Real-Time Human Feedback via Preference-Based Learning

2508.07126v1 cs.LG, cs.AI 2025-08-13
Авторы:

Zhengran Ji, Boyuan Chen

Резюме на русском

## Контекст В настоящее время тренировка агентов в среде reinforcement learning (RL) с помощью руководства человеческим опытным мнением является ключевым приложением в области робототехники, игр и даже здравоохранения. Однако, возникают проблемы при определении задач через конкретные цели в виде регулярных вознаграждений, которые трудно уточнить в некоторых ситуациях. Особенно важно научить агентов принимать решения в реальном времени, где нет доступа к большим историям траекторий для определения предпочтений человека. Предыдущие работы использовали сравнения между траекториями, но они неэффективны в ситуациях, когда требуется онлайн-адаптация. Недавние методы стремятся к собиранию реального временного скалярного руководства от пользователей для последующей обученной модели награды. Однако, скалярное руководство часто шумно и непоследовательно, что приводит к ограниченной точности и плохим результатам обучения. Мы предлагаем Pref-GUIDE, метод, который превращает скалярное руководство в понятную для машины структуру предпочтений, что приводит к лучшей модели награды и лучшему обучению политики в онлайн-режиме. ## Метод Pref-GUIDE предлагает два основных механизма для улучшения обучения моделей наград на основе скалярного руководства. Алгоритм Pref-GUIDE Individual сравнивает поведение агента во временных окнах, чтобы исключить непоследовательности в скалярных значениях. Затем, он использует техники фильтрации, чтобы удалить шумные и непонятные отзывы. Pref-GUIDE Voting расширяет этот подход, агрегируя модели награды с нескольких пользователей, чтобы образовать квази-консенсус пользовательских предпочтений. Это позволяет повысить стабильность и общую точность вывода модели. Основной инновацией Pref-GUIDE является его способность преобразовывать реальное временное руководство в более структурированные предпочтения, что позволяет создавать рекомендации более точные и устойчивые к ошибкам. ## Результаты Мы проверили Pref-GUIDE на трех сложных средах: графической игре, научном моделировании и динамической системе с управлением. Мы сравнили Pref-GUIDE с двумя базовыми методами, которые также используют скалярное руководство от пользователей. Наши эксперименты показали, что Pref-GUIDE превосходит эти методы в обеих средах, повышая точность модели награды и улучшая поведение агента во время работы. Особенно заметны результаты в окружении с динамической системой управления, где Pref-GUIDE Voting показал результаты, сопоставимые с моделями, обученными на основе десятков тысяч пользовательских предпочтений. Эти результаты демонстрируют, что Pref-GUIDE может эффективно использовать ре

Abstract

Training reinforcement learning agents with human feedback is crucial when task objectives are difficult to specify through dense reward functions. While prior methods rely on offline trajectory comparisons to elicit human preferences, such data is unavailable in online learning scenarios where agents must adapt on the fly. Recent approaches address this by collecting real-time scalar feedback to guide agent behavior and train reward models for continued learning after human feedback becomes unavailable. However, scalar feedback is often noisy and inconsistent, limiting the accuracy and generalization of learned rewards. We propose Pref-GUIDE, a framework that transforms real-time scalar feedback into preference-based data to improve reward model learning for continual policy training. Pref-GUIDE Individual mitigates temporal inconsistency by comparing agent behaviors within short windows and filtering ambiguous feedback. Pref-GUIDE Voting further enhances robustness by aggregating reward models across a population of users to form consensus preferences. Across three challenging environments, Pref-GUIDE significantly outperforms scalar-feedback baselines, with the voting variant exceeding even expert-designed dense rewards. By reframing scalar feedback as structured preferences with population feedback, Pref-GUIDE offers a scalable and principled approach for harnessing human input in online reinforcement learning.

Ссылки и действия