Sample-efficient LLM Optimization with Reset Replay
2508.06412v1
cs.LG, cs.CL
2025-08-12
Авторы:
Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian
Резюме на русском
----------------------------------------------------------------------------------------------------------------
## Контекст
----------------------------------------------------------------------------------------------------------------
На данный момент, широко распространены технологии разработки бо LLM (Large Language Models). Одной из ключевых задач в этой области является улучшение их реагирования на задачи, связанные с разумами, с помощью пост-тренировочных методов. Одним из таких методов является ренфорс (RL), который позволяет улучшить оценки модели в процессе работы. Тем не менее, существуют некоторые проблемы, связанные с этим подходом. Например, высокоскоростное обучение может привести к переобучению к исходному вводу, что повлияет на качество решений и позволит привести к снижению эффективности процесса обучения. Увеличение объема данных, используемых во время обучения, может улучшить качество, но требует больших вычислительных ресурсов. Данный проект предлагает подход, который позволяет улучшить качество моделей, не прибегая к таким ресурсоемким методам.
----------------------------------------------------------------------------------------------------------------
## Метод
----------------------------------------------------------------------------------------------------------------
Метод, предложенный в данном исследовании, называется Reset Replay (LoRR). Он представляет собой общую и мощную плагин-компоненту, которая может быть использована для повышения эффективности обучения в любом фреймворке, основанном на приоритетах. Ключевая особенность данного подхода заключается в том, что он позволяет не только увеличивать число пере replayer, но также сохранять качество обучения, используя технику периодического сброса сети. Это позволяет модели не останавливаться на промежуточных результатах, а постоянно развиваться. Более того, LoRR использует специальный гибридный функционал, который включает в себя супервизированное оптимизационное целе, что позволяет модели улучшить качество решений на основе более широкого круга данных.
----------------------------------------------------------------------------------------------------------------
## Результаты
----------------------------------------------------------------------------------------------------------------
Тестирование данного метода проводилось на различных тестовых задачах, включая математические и общие реакции. Выяснилось, что использование LoRR существенно повышает эффективность обучения, особенно в случае ограниченных объемов данных. Например, в работе над задачами математического решения, LoRR увеличивает точность решений, при этом работая с гораздо меньшим количеством итераций. Также, LoRR позволило повысить качество работы моделей в общих задачах, не прибегая к высоким затратам на вычислительные ресурсы. Эти результаты показывают, что данный подход может быть эффективно использован для улучшения работы моделей без необходимости прибегать к дорогостоящим методам.
----------------------------------------------------------------------------------------------------------------
## Значимость
----------------------------------------------------------------------------------------------------------------
Предложенный подход имеет широкие применения в различных областях, где требуется улучшение моделей с помощью пост-тренировочных методов. Например, он может использоваться в сфере обработки естественного языка, в медицине, в разработке игр, и д
Abstract
Recent advancements in post-training Large Language Models (LLMs),
particularly through Reinforcement Learning (RL) and preference optimization
methods, are key drivers for enhancing their reasoning capabilities. However,
these methods are often plagued by low sample efficiency and a susceptibility
to primacy bias, where overfitting to initial experiences degrades policy
quality and damages the learning process. To address these challenges, we
introduce LLM optimization with Reset Replay (LoRR), a general and powerful
plugin designed to enhance sample efficiency in any preference-based
optimization framework. LoRR core mechanism enables training at a high replay
number, maximizing the utility of each collected data batch. To counteract the
risk of overfitting inherent in high-replay training, LoRR incorporates a
periodic reset strategy with reusing initial data, which preserves network
plasticity. Furthermore, it leverages a hybrid optimization objective,
combining supervised fine-tuning (SFT) and preference-based losses to further
bolster data exploitation. Our extensive experiments demonstrate that LoRR
significantly boosts the performance of various preference optimization methods
on both mathematical and general reasoning benchmarks. Notably, an iterative
DPO approach augmented with LoRR achieves comparable performance on challenging
math tasks, outperforming some complex and computationally intensive RL-based
algorithms. These findings highlight that LoRR offers a practical,
sample-efficient, and highly effective paradigm for LLM finetuning, unlocking
greater performance from limited data.
Ссылки и действия
Дополнительные ресурсы: