DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

2508.14460v1 cs.LG, cs.CL 2025-08-22

Авторы:

Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang

Резюме на русском

#### Контекст Одной из основных задач в области глубокого обучения является создание удобных и эффективных методов для оценки и оптимизации моделей глубокого обучения, особенно в случае трансформеров и л LLM. Несмотря на прогрессы в области машинного обучения, существуют значительные проблемы, связанные с необходимостью в регулярном подавлении моделей, чтобы улучшить их качество, точность и широту применения. Эти проблемы влекут за собой дополнительные затраты на оценку и аннотацию данных, что может ограничивать эффективность и развитие моделей. Методология, описанная в данной статье, нацелена на решение этих проблем, предоставляя новый подход к самостоятельной оценке и оптимизации моделей. #### Метод Разработанная методология, названная DuPO (Dual Preference Optimization), является развитием идеи двойного машинного обучения, но имеет более широкий круг применения. Она разделяет задачу на два основных компонента: известные и неизвестные компоненты входных данных, а затем использует вторую задачу для восстановления неизвестных данных, используя информацию, полученную от первой задачи. Этот подход расширяет возможности применения двойного машинного обучения, не ограничиваясь только двойными задачами, такими как перевод и обратный перевод. Архитектура DuPO строится на основе универсальной модели, которая может выполнять как приоритетные, так и двойные задачи, что делает ее гибкой и эффективной. #### Результаты В ходе экспериментов, проведенных на различных наборах данных, DuPO продемонстрировала существенные улучшения по сравнению с существующими методами. Например, в переводе текстов, DuPO улучшила архитектуру на 2.13 COMET за 756 направлений. Также, на трех разных задачах логического разума, модель достигла среднего увеличения показателей на 6.4 балла. Далее, в качестве реранкера в процессе инференса, DuPO показала увеличение точности на 9.3 балла при том, что расход ресурсов остался приемлемым. Эти результаты подтверждают, что DuPO является эффективной и универсальной методологией для оптимизации моделей глубокого обучения. #### Значимость Помимо того, что DuPO широко применима к различным задачам, в том числе и неинверсируемым, она также отличается своей синергичностью с технологиями глубокого обучения. Она позволяет улучшить качество моделей без необходимости разрабатывать дополнительные методы для каждой конкретной задачи. Это может привести к существенным экономиям во времени и ресурсах для разработчиков. Благодаря своей гибкости, она может быть использована в таких областях, как трансляция, распознавание речи, моделирование текстовых данных, и даже в задачах необратимости, таких как решение математических ура

Abstract

We present DuPO, a dual learning-based preference optimization framework that generates annotation-free feedback via a generalized duality. DuPO addresses two key limitations: Reinforcement Learning with Verifiable Rewards (RLVR)'s reliance on costly labels and applicability restricted to verifiable tasks, and traditional dual learning's restriction to strictly dual task pairs (e.g., translation and back-translation). Specifically, DuPO decomposes a primal task's input into known and unknown components, then constructs its dual task to reconstruct the unknown part using the primal output and known information (e.g., reversing math solutions to recover hidden variables), broadening applicability to non-invertible tasks. The quality of this reconstruction serves as a self-supervised reward to optimize the primal task, synergizing with LLMs' ability to instantiate both tasks via a single model. Empirically, DuPO achieves substantial gains across diverse tasks: it enhances the average translation quality by 2.13 COMET over 756 directions, boosts the mathematical reasoning accuracy by an average of 6.4 points on three challenge benchmarks, and enhances performance by 9.3 points as an inference-time reranker (trading computation for accuracy). These results position DuPO as a scalable, general, and annotation-free paradigm for LLM optimization.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация