A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models

2508.12903v1 cs.CL, cs.AI 2025-08-20
Авторы:

Jinyi Han, Xinyi Wang, Haiquan Zhao, Tingyun li, Zishang Jiang, Sihang Jiang, Jiaqing Liang, Xin Lin, Weikang Zhou, Zeye Sun, Fei Yu, Yanghua Xiao

Резюме на русском

#### Контекст Проблема существующих методов самопроверки языковых моделей заключается в реактивной природе их работы. Они также опираются на фиксированное число итераций, что затрудняет определение оптимального времени и содержания рефинемента в зависимости от процесса генерации. Такое подходящее время может существенно влиять на качество исходящего ответа. Вдохновленные человеческим методом динамического формирования мыслей при выполнении задач, авторы предлагают ProActive Self-Refinement (PASR) — метод, позволяющий языковым моделям проводить самопроверку в процессе генерации. Такой подход позволяет не только улучшать качество ответов, но и эффективно регулировать ресурсы, потребляемые генерацией. #### Метод PASR предлагает динамическую модель рефинемента, основанную на внутреннем состоянии модели и обстоятельствах контекста. Он позволяет модели принимать решения о том, когда и как проводить рефинемент на основе внутреннего состояния в течение генерации. В отличие от методов, требующих полной регенерации ответов, PASR выполняет проверку только необходимого контекста, что экономит ресурсы. Технический аппарат PASR включает в себя особый алгоритм для определения точки рефинемента и выбора конкретного варианта рефинемента, основываясь на вероятностных моделях. Такой подход допускает продвинутую регуляризацию, способствующую эффективной интерактивной работе модели. #### Результаты Эксперименты проводились на 10 различных задачах, включая задачи решения задач, вывода и текстового понимания. Для оценки улучшения использовались метрики, такие как токен-реконсденс и точность ответов. Результаты показали, что PASR способен снизить потребление токенов на 41.6% в сравнении с стандартными методами генерации, при этом повысив точность ответов на 8.2%. Эти результаты доказывают, что PASR позволяет языковым моделям стать более эффективными и точными в выполнении задач, при этом существенно сокращая ресурсозатраты. #### Значимость PASR может применяться в различных сферах, где требуется высокая точность и эффективность вывода языковых моделей. Из преимуществ можно отметить экономию ресурсов, улучшение качества ответов, а также устойчивость к ненадобной регенерации. Этот подход может стать основой для развития будущих моделей, позволяя им подходить к задачам динамически, что значительно улучшит их взаимодействие с пользователями. #### Выводы Результаты PASR подтверждают эффективность динамического самопроверки в процессе генерации. Он доказывает, что языковые модели могут быть улучшены с помощью логичного регулирования процесса. Б

Abstract

Recent advances in self-refinement have demonstrated significant potential for improving the outputs of large language models (LLMs) through iterative refinement. However, most existing self-refinement methods rely on a reactive process with a fixed number of iterations, making it difficult to determine the optimal timing and content of refinement based on the evolving generation context. Inspired by the way humans dynamically refine their thoughts during execution, we propose ProActive Self-Refinement (PASR), a novel method that enables LLMs to refine their outputs during the generation process. Unlike methods that regenerate entire responses, PASR proactively decides whether, when, and how to refine based on the model's internal state and evolving context. We conduct extensive experiments on a diverse set of 10 tasks to evaluate the effectiveness of PASR. Experimental results show that PASR significantly enhances problem-solving performance. In particular, on Qwen3-8B, PASR reduces average token consumption by 41.6 percent compared to standard generation, while also achieving an 8.2 percent improvement in accuracy. Our code and all baselines used in the paper are available in the GitHub.

Ссылки и действия