Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future
2508.06026v1
cs.CL, cs.AI
2025-08-12
Авторы:
Yidong Wang, Xin Wang, Cunxiang Wang, Junfeng Fang, Qiufeng Wang, Jianing Chu, Xuran Meng, Shuxun Yang, Libo Qin, Yue Zhang, Wei Ye, Shikun Zhang
Резюме на русском
#### Контекст
Существующие языковые модели (LLMs) обладают высокими возможностями в области процессов обучения и принятия решений. Одним из значительных подходов является Self-Rewarding Language Models, где модели используются как самостоятельные судьи для оценки своих выводов. Несмотря на их перспективы, ограничения в совмещении выборки найденных и отвергнутых ответов приводят к уменьшению разнообразия возможных ответов, что снижает эффективность изучения предпочтений. Это приводит к недостаточной устойчивости в обучении и ограничивает общую гибкость моделей. Мы определили, что наиболее эффективным решением могут быть подходы, которые бы способствовали улучшению представления отдельных ответов в разных моментах времени, повышая таким образом качество решений.
#### Метод
Мы предлагаем **Temporal Self-Rewarding Language Models**, которые разделяются на две фазы: **Anchored Rejection** и **Future-Guided Chosen**. В первой фазе, **Anchored Rejection**, мы используем многомодельный план, где модель-предшественник фиксирует выбранные ответы, чтобы сохранить их качество. Вторая фаза, **Future-Guided Chosen**, включает в себя динамическую структуру, которая позволяет модели выбирать ответы с использованием многомодельного прогноза для следующих раундов. Эта структура позволяет поддерживать разнообразие ответов и улучшает обучение в течение временного сдвига. Мы проводим эксперименты с использованием трех моделей (Llama, Qwen, Mistral) и различными размерами моделей (Llama 3B, 8B, 70B).
#### Результаты
Мы провели ряд экспериментов, чтобы проверить эффективность нашего подхода. Наша модель показала значительные выигрыши в различных аспектах. Например, Llama3.1-8B достигла 29.44 win rate на AlpacaEval 2.0, что значительно превосходит Self-Rewarding baseline (19.69). Мы также проверили наши модели на выводах в области математического разума (GSM8K), знаний (ARC, TruthfulQA) и кода (HumanEval). Даже не используя специальное обучение, наши модели показали улучшение в общей гибкости и выносливости. Это указывает на то, что наш подход не только улучшает качество вывода, но и повышает устойчивость и общую эффективность.
#### Значимость
Мы предлагаем новый подход к обучению моделей, который может быть применен в различных областях, включая знания, кодирование, предсказания и другие. Данный подход позволяет улучшить качество модели, сохранив разнообразие в выборке ответов, что вносит вклад в улучшение общей гибкости и устойчивости моделей. Это может иметь значительное влияние на развитие языковых моделей, повышая их точность и мощность в различных сценариях.
#### Выводы
Мы доказали, что наш подход значительно улучшает качество моделей Self-Rewarding Language Models, даже при ограничен
Abstract
Self-Rewarding Language Models propose an architecture in which the Large
Language Models(LLMs) both generates responses and evaluates its own outputs
via LLM-as-a-Judge prompting, dynamically improving its generative capabilities
through iterative Direct Preference Optimization (DPO). However, our analysis
reveals a critical limitation in existing Self-Rewarding paradigms: the
synchronized improvement of chosen and rejected responses progressively narrows
the representational difference between contrasting samples, undermining
effective preference learning. We propose \textbf{Temporal Self-Rewarding
Language Models} that strategically coordinate past, present, and future model
generations to sustain learning signals. Our dual-phase framework introduces:
(1) \textit{Anchored Rejection} - fixing rejected responses using the past
initial model's outputs and (2) \textit{Future-Guided Chosen} - dynamically
curating chosen samples using next-generation model predictions. Extensive
experiments across three model families (Llama, Qwen, Mistral) and different
model sizes (Llama3B/8B/70B) demonstrate significant improvements when trained
with our method compared to Self-Rewarding using same computation resources.
For example, Llama3.1-8B reaches a 29.44 win rate on AlpacaEval 2.0 with our
method, outperforming the Self-Rewarding baseline (19.69) by 9.75. Notably, our
method also demonstrates superior out-of-distribution generalization across
mathematical reasoning (GSM8K), knowledge-based QA (ARC, TruthfulQA), and code
generation (HumanEval) tasks, even though we do not specifically collect such
training data.
Ссылки и действия
Дополнительные ресурсы: