Language Models Can Learn from Verbal Feedback Without Scalar Rewards
2509.22638v1
cs.CL, cs.AI, cs.LG
2025-09-30
Авторы:
Renjie Luo, Zichen Liu, Xiangyan Liu, Chao Du, Min Lin, Wenhu Chen, Wei Lu, Tianyu Pang
Резюме на русском
#### Контекст
Современные текстовые генерирующие модели (LLMs) обычно учитывают результаты обучения на основе реальных знаний или полученных с помощью AI-фидбека. Несмотря на прогрессы в области глубокого обучения, методы художественного обучения (RL) часто сокращают богатые знания (вроде текстовых отзывов) в масштабируемые (scalar) награды, что может сбить баланс, искажая скрытые сигналы. Это приводит к ухудшению качества генерируемых ответов. Наша работа позиционируется как альтернативный подход, который использует словарные отзывы как условия (кондиционированные значения), не редуцируя их до масштабов, а расширяя систему для понимания и учета большего количества сигналов.
#### Метод
Мы предлагаем новую модель, названную **Feedback-Conditional Policy (FCP)**, которая обучается на отзывах в текстовом формате. Метод основывается на принципах текстового понимания и применяет механизмы генерируемых моделей, позволяя модели LLM не только "читать" отзывы, но и использовать их в качестве тренировочного сигнала во время обучения. Мы вводим два этапа: **offline training**, где модель учится на основе пар отзывов/реакций, и **online bootstrapping**, в котором модель сама создает ответы в условиях положительных отзывов, получая фидбек в реальном времени. Этот подход переименовывает фидбек-ориентированное обучение в термины генерируемого текста, давая модели LLM более широкие возможности для интерактивного обучения.
#### Результаты
Мы проверили работу нашей модели на нескольких наборах текстовых данных, включая обучение с отзывы-реакции, созданные специально для этого. В результате показали, что новая модель демонстрирует лучшую способность изучить и использовать отзывы, в том числе с разным тематическим контентом и сложностью. Мы сравнили нашу модель с другими подходами, использующими scalar-based RL. Наши результаты показывают, что FCP не только показывает вышеуровневую точность, но и способна генерировать более выразительные ответы, которые учитывают подробности и контекст отзывов.
#### Значимость
Наша работа открывает новые возможности для LLM, позволяя им учиться непосредственно от языковых отзывов без необходимости использовать корреляции с масштабированием наград. Это повышает их применение в сценариях, где требуется более точное и личностное понимание отзывов, например:
- Развитие диалоговых систем;
- Генерация текстов с учетом конкретных пользовательских предпочтений;
- Обучение моделей для работы в тематических областях (например, медицина или юриспруденция), где нужен точный контекст.
#### Выводы
Мы показали, что модель FCP предлагает более гиб
Abstract
LLMs are often trained with RL from human or AI feedback, yet such methods
typically compress nuanced feedback into scalar rewards, discarding much of
their richness and inducing scale imbalance. We propose treating verbal
feedback as a conditioning signal. Inspired by language priors in text-to-image
generation, which enable novel outputs from unseen prompts, we introduce the
feedback-conditional policy (FCP). FCP learns directly from response-feedback
pairs, approximating the feedback-conditional posterior through maximum
likelihood training on offline data. We further develop an online bootstrapping
stage where the policy generates under positive conditions and receives fresh
feedback to refine itself. This reframes feedback-driven learning as
conditional generation rather than reward optimization, offering a more
expressive way for LLMs to directly learn from verbal feedback. Our code is
available at https://github.com/sail-sg/feedback-conditional-policy.
Ссылки и действия
Дополнительные ресурсы: