Sample-efficient LLM Optimization with Reset Replay

2508.06412v1 cs.LG, cs.CL 2025-08-12

Авторы:

Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian

Резюме на русском

---------------------------------------------------------------------------------------------------------------- ## Контекст ---------------------------------------------------------------------------------------------------------------- На данный момент, широко распространены технологии разработки бо LLM (Large Language Models). Одной из ключевых задач в этой области является улучшение их реагирования на задачи, связанные с разумами, с помощью пост-тренировочных методов. Одним из таких методов является ренфорс (RL), который позволяет улучшить оценки модели в процессе работы. Тем не менее, существуют некоторые проблемы, связанные с этим подходом. Например, высокоскоростное обучение может привести к переобучению к исходному вводу, что повлияет на качество решений и позволит привести к снижению эффективности процесса обучения. Увеличение объема данных, используемых во время обучения, может улучшить качество, но требует больших вычислительных ресурсов. Данный проект предлагает подход, который позволяет улучшить качество моделей, не прибегая к таким ресурсоемким методам. ---------------------------------------------------------------------------------------------------------------- ## Метод ---------------------------------------------------------------------------------------------------------------- Метод, предложенный в данном исследовании, называется Reset Replay (LoRR). Он представляет собой общую и мощную плагин-компоненту, которая может быть использована для повышения эффективности обучения в любом фреймворке, основанном на приоритетах. Ключевая особенность данного подхода заключается в том, что он позволяет не только увеличивать число пере replayer, но также сохранять качество обучения, используя технику периодического сброса сети. Это позволяет модели не останавливаться на промежуточных результатах, а постоянно развиваться. Более того, LoRR использует специальный гибридный функционал, который включает в себя супервизированное оптимизационное целе, что позволяет модели улучшить качество решений на основе более широкого круга данных. ---------------------------------------------------------------------------------------------------------------- ## Результаты ---------------------------------------------------------------------------------------------------------------- Тестирование данного метода проводилось на различных тестовых задачах, включая математические и общие реакции. Выяснилось, что использование LoRR существенно повышает эффективность обучения, особенно в случае ограниченных объемов данных. Например, в работе над задачами математического решения, LoRR увеличивает точность решений, при этом работая с гораздо меньшим количеством итераций. Также, LoRR позволило повысить качество работы моделей в общих задачах, не прибегая к высоким затратам на вычислительные ресурсы. Эти результаты показывают, что данный подход может быть эффективно использован для улучшения работы моделей без необходимости прибегать к дорогостоящим методам. ---------------------------------------------------------------------------------------------------------------- ## Значимость ---------------------------------------------------------------------------------------------------------------- Предложенный подход имеет широкие применения в различных областях, где требуется улучшение моделей с помощью пост-тренировочных методов. Например, он может использоваться в сфере обработки естественного языка, в медицине, в разработке игр, и д

Abstract

Recent advancements in post-training Large Language Models (LLMs), particularly through Reinforcement Learning (RL) and preference optimization methods, are key drivers for enhancing their reasoning capabilities. However, these methods are often plagued by low sample efficiency and a susceptibility to primacy bias, where overfitting to initial experiences degrades policy quality and damages the learning process. To address these challenges, we introduce LLM optimization with Reset Replay (LoRR), a general and powerful plugin designed to enhance sample efficiency in any preference-based optimization framework. LoRR core mechanism enables training at a high replay number, maximizing the utility of each collected data batch. To counteract the risk of overfitting inherent in high-replay training, LoRR incorporates a periodic reset strategy with reusing initial data, which preserves network plasticity. Furthermore, it leverages a hybrid optimization objective, combining supervised fine-tuning (SFT) and preference-based losses to further bolster data exploitation. Our extensive experiments demonstrate that LoRR significantly boosts the performance of various preference optimization methods on both mathematical and general reasoning benchmarks. Notably, an iterative DPO approach augmented with LoRR achieves comparable performance on challenging math tasks, outperforming some complex and computationally intensive RL-based algorithms. These findings highlight that LoRR offers a practical, sample-efficient, and highly effective paradigm for LLM finetuning, unlocking greater performance from limited data.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Sample-efficient LLM Optimization with Reset Replay

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация