Paired by the Teacher: Turning Unpaired Data into High-Fidelity Pairs for Low-Resource Text Generation

2509.25144v1 cs.CL, cs.AI, cs.LG 2025-10-01
Авторы:

Yen-Ju Lu, Thomas Thebaud, Laureano Moro-Velazquez, Najim Dehak, Jesus Villalba

Резюме на русском

## Контекст Low-resource natural language generation (NLG) представляет собой сложную проблему, где недостаточно имеются качественные тренировочные данные для обучения моделей. Особенно сложно ситуации, когда есть только неоднородные входные данные (например, абзацы или диалоги) или только выходные данные (например, краткие абзацы или вопросы). Учитывая эту проблему, традиционно используются широкомасштабные генерированные корпусы, требующие дорогостоящих совместимых моделей для работы. Однако такие подходы не всегда эффективны, особенно когда входные данные не являются чёткими или полностью несовместимы. В таком контексте требуется разработка новых технологий, которые могут преодолеть эти ограничения и позволить эффективно использовать неоднородные входные данные. ## Метод Основой метода является Paired by the Teacher (PbT) — двухэтапная модель, состоящая из teacher-student-архитектуры. Teacher-LLM сжимает входные данные в концентрированные интермедиате репрезентации (IR). Далее, student-LLM обучается из этих IR-представлений, восстанавливая входные данные. Это позволяет генерировать парные данные для модели, которые могут быть использованы в обучении. Эта архитектура позволяет развернуть модели на некоторых низкоресурсных задачах, таких как документ-сводка (XSum, CNNDM), диалог-сводка (SAMSum, DialogSum), и вопрос-генерация (SQuAD), даже при несовпадении входных и выходных данных. ## Результаты Проведенные эксперименты показали, что 8B-модель, обученная на PbT, показала заметное улучшение по сравнению с другими методами. Она приблизилась к 82% фактической потери ROUGE-L, сравнив с людьми, и сократила требуемые ресурсы на треть. Особенно удачены результаты на диалог-сводках SwitchBoard, где PbT сгенерировала конкретные и достоверные сводки, соответствующие целевому стилю. ## Значимость PbT открывает новые возможности для роста моделей в низкоресурсных генеративных текстовых задачах. Её преимущество состоит в том, что она может эффективно обучаться на неоднородных входных данных без требуемых традиционных методов генерации парных данных. Это открывает перспективы для увеличения доступности моделей NLG в различных приложениях, таких как генерация новостей, диалоговые системы и работа с текстовыми данными в негативных условиях. ## Выводы PbT демонстрирует высокую эффективность в низкоресурсных NLG-задачах за счёт создания парных данных на основе неоднородных входных данных. Будущие исследования будут направлены на улучшение точности модели и её применение в различных низкоресурсных текстовых сценариях.

Abstract

We present Paired by the Teacher (PbT), a two-stage teacher-student pipeline that synthesizes accurate input-output pairs without human labels or parallel data. In many low-resource natural language generation (NLG) scenarios, practitioners may have only raw outputs, like highlights, recaps, or questions, or only raw inputs, such as articles, dialogues, or paragraphs, but seldom both. This mismatch forces small models to learn from very few examples or rely on costly, broad-scope synthetic examples produced by large LLMs. PbT addresses this by asking a teacher LLM to compress each unpaired example into a concise intermediate representation (IR), and training a student to reconstruct inputs from IRs. This enables outputs to be paired with student-generated inputs, yielding high-quality synthetic data. We evaluate PbT on five benchmarks-document summarization (XSum, CNNDM), dialogue summarization (SAMSum, DialogSum), and question generation (SQuAD)-as well as an unpaired setting on SwitchBoard (paired with DialogSum summaries). An 8B student trained only on PbT data outperforms models trained on 70 B teacher-generated corpora and other unsupervised baselines, coming within 1.2 ROUGE-L of human-annotated pairs and closing 82% of the oracle gap at one-third the annotation cost of direct synthesis. Human evaluation on SwitchBoard further confirms that only PbT produces concise, faithful summaries aligned with the target style, highlighting its advantage of generating in-domain sources that avoid the mismatch, limiting direct synthesis.

Ссылки и действия