CYCLE-INSTRUCT: Fully Seed-Free Instruction Tuning via Dual Self-Training and Cycle Consistency

2508.16100v1 cs.CL, cs.AI, cs.LG 2025-08-26

Авторы:

Zhanming Shen, Hao Chen, Yulei Tang, Shaolin Zhu, Wentao Ye, Xiaomeng Hu, Haobo Wang, Gang Chen, Junbo Zhao

Резюме на русском

## Контекст Инструкционный tuning — это ключевая задача для адаптации бо LLM к потребностям пользователей, но она часто ограничивается сильной зависимостью от больших выборок с маркировкой (seed data) или сильно налаженных внешних моделей. Эти зависимости не только ограничивают саму процедуру, но и формируют риск внедрения биаса. Недостатки существующих подходов, включая использование back-translation, становятся очевидными в связи с их несовершенством в эффективном использовании немаркированных данных. Целью CYCLE-INSTRUCT является устранение этих проблем, предлагая seed-free подход, который позволяет извлекать значимость из немаркированных данных без привлечения дополнительных источников. ## Метод CYCLE-INSTRUCT предлагает двухуровневый самостоятельный тренировочный подход, основанный на циклической консистенции. Используется два модели — **answer generator** и **question generator**, которые обучаются друг с другом в объеме немаркированных данных. Они обмениваются сгенерированными псевдо-метками, которые затем используются для дополнительного тренирования. Этот процесс демонстрирует эффективность в обучении самостоятельно, не зависящем от какой-либо формальной маркировки. Архитектура строится на создании параллельных моделей, решающих взаимно похожие задачи, в которых каждая модель использует входные данные другой модели как псевдо-текст для обучения. ## Результаты Эксперименты проводились на данных с различной спецификой: универсальные инструкции, доменные задачи, диалоги и простые тексты. Замеры показали, что CYCLE-INSTRUCT не только превосходит традиционные seed-driven методы, но и достигает показателей, схожих с методами, использующими сильную супервизию. Измерения включали F1-меру, BLEU-скоры, accuracy, а также общую качественную оценку поведения модели в задачах генерации и анализа. ## Значимость CYCLE-INSTRUCT может использоваться в различных областях, включая NLP, n-shot инструкционное обучение, моделирование диалога и автоматизацию процессов обработки текстов. Его особенно успешно применять там, где отсутствуют доступные выборки маркировки, но есть большие исходные тексты. Это не только позволяет значительно сократить накладные расходы на тренировку, но и демонстрирует высокую эффективность самообучения, которая приводит к независимости от сторонних моделей или данных. ## Выводы CYCLE-INSTRUCT представляет собой новую модель, которая достигает полного seed-free tuning с помощью двухуровневого self-training. Он успешно показывает, что модели могут быть эффективно обучены только на базе немаркированных данных, избегая рисков внедрения биаса. Будущие исследования будут нацелены на улучшение точности модели и добав

Abstract

Instruction tuning is vital for aligning large language models (LLMs) with human intent, but current methods typically rely on costly human-annotated seed data or powerful external teacher models. While instruction back-translation techniques reduce this dependency, they remain fundamentally tethered to an initial seed set, which limits full automation, introduces biases, and can lead to inefficient use of unlabeled corpora. In this paper, we propose Cycle-Instruct, a novel framework that achieves fully seed-free instruction tuning. Inspired by cycle consistency, Cycle-Instruct employs a dual self-training loop where two models-an answer generator and a question generator-are bootstrapped solely from raw, unlabeled text. These models mutually supervise each other by reconstructing original text segments from their counterpart's generated pseudo-labels, effectively learning from the intrinsic structure of the data without any human-provided seeds. We demonstrate Cycle-Instruct's efficacy across four diverse data tracks, including general instruction-following, domain-specific tasks, dialogue logs, and plain text. Our extensive experiments show that Cycle-Instruct not only outperforms seed-driven back-translation baselines but also achieves performance comparable to strongly supervised methods.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CYCLE-INSTRUCT: Fully Seed-Free Instruction Tuning via Dual Self-Training and Cycle Consistency

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация