Pref-GUIDE: Continual Policy Learning from Real-Time Human Feedback via Preference-Based Learning
2508.07126v1
cs.LG, cs.AI
2025-08-13
Авторы:
Zhengran Ji, Boyuan Chen
Резюме на русском
## Контекст
В настоящее время тренировка агентов в среде reinforcement learning (RL) с помощью руководства человеческим опытным мнением является ключевым приложением в области робототехники, игр и даже здравоохранения. Однако, возникают проблемы при определении задач через конкретные цели в виде регулярных вознаграждений, которые трудно уточнить в некоторых ситуациях. Особенно важно научить агентов принимать решения в реальном времени, где нет доступа к большим историям траекторий для определения предпочтений человека. Предыдущие работы использовали сравнения между траекториями, но они неэффективны в ситуациях, когда требуется онлайн-адаптация. Недавние методы стремятся к собиранию реального временного скалярного руководства от пользователей для последующей обученной модели награды. Однако, скалярное руководство часто шумно и непоследовательно, что приводит к ограниченной точности и плохим результатам обучения. Мы предлагаем Pref-GUIDE, метод, который превращает скалярное руководство в понятную для машины структуру предпочтений, что приводит к лучшей модели награды и лучшему обучению политики в онлайн-режиме.
## Метод
Pref-GUIDE предлагает два основных механизма для улучшения обучения моделей наград на основе скалярного руководства. Алгоритм Pref-GUIDE Individual сравнивает поведение агента во временных окнах, чтобы исключить непоследовательности в скалярных значениях. Затем, он использует техники фильтрации, чтобы удалить шумные и непонятные отзывы. Pref-GUIDE Voting расширяет этот подход, агрегируя модели награды с нескольких пользователей, чтобы образовать квази-консенсус пользовательских предпочтений. Это позволяет повысить стабильность и общую точность вывода модели. Основной инновацией Pref-GUIDE является его способность преобразовывать реальное временное руководство в более структурированные предпочтения, что позволяет создавать рекомендации более точные и устойчивые к ошибкам.
## Результаты
Мы проверили Pref-GUIDE на трех сложных средах: графической игре, научном моделировании и динамической системе с управлением. Мы сравнили Pref-GUIDE с двумя базовыми методами, которые также используют скалярное руководство от пользователей. Наши эксперименты показали, что Pref-GUIDE превосходит эти методы в обеих средах, повышая точность модели награды и улучшая поведение агента во время работы. Особенно заметны результаты в окружении с динамической системой управления, где Pref-GUIDE Voting показал результаты, сопоставимые с моделями, обученными на основе десятков тысяч пользовательских предпочтений. Эти результаты демонстрируют, что Pref-GUIDE может эффективно использовать ре
Abstract
Training reinforcement learning agents with human feedback is crucial when
task objectives are difficult to specify through dense reward functions. While
prior methods rely on offline trajectory comparisons to elicit human
preferences, such data is unavailable in online learning scenarios where agents
must adapt on the fly. Recent approaches address this by collecting real-time
scalar feedback to guide agent behavior and train reward models for continued
learning after human feedback becomes unavailable. However, scalar feedback is
often noisy and inconsistent, limiting the accuracy and generalization of
learned rewards. We propose Pref-GUIDE, a framework that transforms real-time
scalar feedback into preference-based data to improve reward model learning for
continual policy training. Pref-GUIDE Individual mitigates temporal
inconsistency by comparing agent behaviors within short windows and filtering
ambiguous feedback. Pref-GUIDE Voting further enhances robustness by
aggregating reward models across a population of users to form consensus
preferences. Across three challenging environments, Pref-GUIDE significantly
outperforms scalar-feedback baselines, with the voting variant exceeding even
expert-designed dense rewards. By reframing scalar feedback as structured
preferences with population feedback, Pref-GUIDE offers a scalable and
principled approach for harnessing human input in online reinforcement
learning.
Ссылки и действия
Дополнительные ресурсы: