Language Models Can Learn from Verbal Feedback Without Scalar Rewards

2509.22638v1 cs.CL, cs.AI, cs.LG 2025-09-30

Авторы:

Renjie Luo, Zichen Liu, Xiangyan Liu, Chao Du, Min Lin, Wenhu Chen, Wei Lu, Tianyu Pang

Резюме на русском

#### Контекст Современные текстовые генерирующие модели (LLMs) обычно учитывают результаты обучения на основе реальных знаний или полученных с помощью AI-фидбека. Несмотря на прогрессы в области глубокого обучения, методы художественного обучения (RL) часто сокращают богатые знания (вроде текстовых отзывов) в масштабируемые (scalar) награды, что может сбить баланс, искажая скрытые сигналы. Это приводит к ухудшению качества генерируемых ответов. Наша работа позиционируется как альтернативный подход, который использует словарные отзывы как условия (кондиционированные значения), не редуцируя их до масштабов, а расширяя систему для понимания и учета большего количества сигналов. #### Метод Мы предлагаем новую модель, названную **Feedback-Conditional Policy (FCP)**, которая обучается на отзывах в текстовом формате. Метод основывается на принципах текстового понимания и применяет механизмы генерируемых моделей, позволяя модели LLM не только "читать" отзывы, но и использовать их в качестве тренировочного сигнала во время обучения. Мы вводим два этапа: **offline training**, где модель учится на основе пар отзывов/реакций, и **online bootstrapping**, в котором модель сама создает ответы в условиях положительных отзывов, получая фидбек в реальном времени. Этот подход переименовывает фидбек-ориентированное обучение в термины генерируемого текста, давая модели LLM более широкие возможности для интерактивного обучения. #### Результаты Мы проверили работу нашей модели на нескольких наборах текстовых данных, включая обучение с отзывы-реакции, созданные специально для этого. В результате показали, что новая модель демонстрирует лучшую способность изучить и использовать отзывы, в том числе с разным тематическим контентом и сложностью. Мы сравнили нашу модель с другими подходами, использующими scalar-based RL. Наши результаты показывают, что FCP не только показывает вышеуровневую точность, но и способна генерировать более выразительные ответы, которые учитывают подробности и контекст отзывов. #### Значимость Наша работа открывает новые возможности для LLM, позволяя им учиться непосредственно от языковых отзывов без необходимости использовать корреляции с масштабированием наград. Это повышает их применение в сценариях, где требуется более точное и личностное понимание отзывов, например: - Развитие диалоговых систем; - Генерация текстов с учетом конкретных пользовательских предпочтений; - Обучение моделей для работы в тематических областях (например, медицина или юриспруденция), где нужен точный контекст. #### Выводы Мы показали, что модель FCP предлагает более гиб

Abstract

LLMs are often trained with RL from human or AI feedback, yet such methods typically compress nuanced feedback into scalar rewards, discarding much of their richness and inducing scale imbalance. We propose treating verbal feedback as a conditioning signal. Inspired by language priors in text-to-image generation, which enable novel outputs from unseen prompts, we introduce the feedback-conditional policy (FCP). FCP learns directly from response-feedback pairs, approximating the feedback-conditional posterior through maximum likelihood training on offline data. We further develop an online bootstrapping stage where the policy generates under positive conditions and receives fresh feedback to refine itself. This reframes feedback-driven learning as conditional generation rather than reward optimization, offering a more expressive way for LLMs to directly learn from verbal feedback. Our code is available at https://github.com/sail-sg/feedback-conditional-policy.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация