📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 The Coverage Principle: How Pre-training Enables Post-Training

2025-10-21

Авторы:

Fan Chen, Audrey Huang, Noah Golowich, Sadhika Malladi, Adam Block, Jordan T. Ash, Akshay Krishnamurthy, Dylan J. Foster

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Language models demonstrate remarkable abilities when pre-trained on large text corpora and fine-tuned for specific tasks, but how and why pre-training shapes the success of the final model remains poorly understood. Notably, although pre-training success is often quantified by cross entropy loss, cross-entropy can be a poor predictor of downstream performance. Instead, we provide a theoretical perspective on this relationship through the lens of \emph{coverage}, which quantifies the probability...

ID: 2510.15020v1 stat.ML, cs.AI, cs.CL, cs.LG, math.ST, stat.TH

arXiv PDF

📄 Towards Efficient Online Exploration for Reinforcement Learning with Human Feedback

2025-09-30

Авторы:

Gen Li, Yuling Yan

## Контекст Reinforcement learning with human feedback (RLHF) является важной парадигмой для выравнивания больших языковых моделей (LLM) с целями и приоритетами человека. Однако в RLHF существуют сложности с эффективным исследованием окружения, которые необходимо решить для улучшения качества получаемых моделями решений. Основной проблемой является недостаточная эффективность сбора новых данных о предпочтениях, что приводит к плохой оптимизации политики и недостаточной информативности модели награды. Это сказывается на практической реализации RLHF, где необходимо минимизировать стоимость сбора данных и повысить эффективность оптимизации. ## Метод Мы предлагаем новую методологию для эффективного исследования окружения в среде RLHF. Алгоритм строится на основе оптимистических принципов исследования, но в отличие от существующих подходов, он направляет предпочтения в направлениях, которые максимально сильно влияют на повышение качества политики. Для этого мы предлагаем новую схему оптимизации, которая минимизирует неопределенность в отношении различий в наградах, связанных с наиболее важными действиями. Это подход не только улучшает эффективность сбора данных, но и позволяет избежать высокой стоимости сбора данных, которая характерна для ранее использовавшихся методов. ## Результаты Мы провели эксперименты на синтетических и реальных данных, которые подтвердили высокую эффективность нового подхода. На практических задачах, таких как выравнивание больших языковых моделей, наши результаты показали существенное повышение качества модели в сравнении с традиционными методами. Мы также показали, что уменьшение неопределенности в различиях наград приводит к более точному определению политики, что улучшает стабильность и эффективность RLHF. ## Значимость Наш подход может быть применен в различных областях применения RLHF, включая настройку больших языковых моделей, управление роботами и другие приложения, требующие эффективного управления сложными окружениями. Он позволяет снизить стоимость сбора данных, улучшить качество решений и уменьшить время обучения модели. Это открывает пути к более эффективной и практичной реализации RLHF в практических приложениях. ## Выводы Мы предложили новую методологию для эффективного исследования окружения в RLHF, которая позволяет уменьшить неопределенность в различиях наград. Наши результаты показали, что этот подход эффективен и может применяться в различных приложениях RLHF. Мы также обсудили перспективы будущих исследований в этой области, в частности, исследования новых стратегий эффективного исследования для более сложных задач.

Annotation:

Reinforcement learning with human feedback (RLHF), which learns a reward model from human preference data and then optimizes a policy to favor preferred responses, has emerged as a central paradigm for aligning large language models (LLMs) with human preferences. In this paper, we investigate exploration principles for online RLHF, where one seeks to adaptively collect new preference data to refine both the reward model and the policy in a data-efficient manner. By examining existing optimism-ba...

ID: 2509.22633v1 stat.ML, cs.AI, cs.CL, cs.LG, math.ST, stat.TH

arXiv PDF