Jointly Reinforcing Diversity and Quality in Language Model Generations

2509.02534v1 cs.CL, cs.LG 2025-09-05

Авторы:

Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang

Резюме на русском

## Контекст Особенностью современных языковых моделей (LLMs) является их способность генерировать реалистичные и корректные ответы на запросы пользователей. Однако, при пост-обучении, нацеленном на улучшение точности и полезности ответов, часто снижается их разнообразие. Это создает конфликт: улучшение качества ответов приводит к уменьшению их разнообразия, что ограничивает применение языковых моделей в задачах, требующих творчества и эксплорации, таких как размышления, рассказывание историй или решение проблем. Эта проблема не только затрудняет использование моделей в нестандартных сценариях, но и снижает их общую ценность в сфере ИИ. Таким образом, необходимо разработать подходы, которые позволят гармонизировать качество и разнообразие ответов. ## Метод Diversity-Aware Reinforcement Learning (DARLING) — это рамочный подход, предназначенный для решения проблемы равновесия между качеством и разнообразием ответов языковых моделей. Основной идеей DARLING является использование учета семантического разнообразия без ограниченияся лишь лексическими и формальными переменными. Методом DARLING является учет семантического контекста и использование новых мер разнообразия, которые позволяют измерить разнообразие ответов на семантическом уровне. Эти меры затем объединяются с мерой качества ответов в рамках онлайн-реинфорсментного обучения, чтобы модели могли генерировать ответы, оптимальные как по качеству, так и по разнообразию. Данная модель применяется к различным моделям языка и задачам, включая непроверяемые задачи (например, творческое письмо) и проверяемые (например, решение задач по математике). ## Результаты Исследования DARLING проводились на множестве моделей языка различных размеров и наборов данных. На непроверяемых задачах (таких как творческое письмо или задания по конкурсной математике) DARLING показал статистически значимый выигрыш в сравнении с базовыми моделями, оптимизированными только для качества ответов. На проверяемых задачах (решении математических задач) DARLING также показал лучшую работу, увеличив проходимость решений, как в полноте, так и в их разнообразии. Эксперименты показали, что DARLING не только повышает качество ответов, но и стимулирует их разнообразие, что делает модель более универсальной и полезной в различных сферах применения. ## Значимость Основное применение DARLING заключается в улучшении работы языковых моделей для творческих и эксплорационных задач. Его можно применять в области поисковых систем, где требуется не только предоставить точный ответ, но и предложить многообразные варианты ответов для пользователя. Благодаря способности работать с разноо

Abstract

Post-training of Large Language Models (LMs) often prioritizes accuracy and helpfulness at the expense of diversity. This creates a tension: while post-training improves response quality, it also sharpens output distributions and reduces the range of ideas, limiting the usefulness of LMs in creative and exploratory tasks such as brainstorming, storytelling, or problem solving. We address this challenge with Diversity-Aware Reinforcement Learning (DARLING), a framework that jointly optimizes for response quality and semantic diversity. At its core, DARLING introduces a learned partition function to measure diversity beyond surface-level lexical variations. This diversity signal is then combined with a quality reward during online reinforcement learning, encouraging models to generate outputs that are both high-quality and distinct. Experiments across multiple model families and sizes show that DARLING generalizes to two regimes: non-verifiable tasks (instruction following and creative writing) and verifiable tasks (competition math). On five benchmarks in the first setting, DARLING consistently outperforms quality-only RL baselines, producing outputs that are simultaneously of higher quality and novelty. In the second setting, DARLING achieves higher pass@1 (solution quality) and pass@k (solution variety). Most strikingly, explicitly optimizing for diversity catalyzes exploration in online RL, which manifests itself as higher-quality responses.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Jointly Reinforcing Diversity and Quality in Language Model Generations

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация