Transplant Then Regenerate: A New Paradigm for Text Data Augmentation
2508.14723v1
cs.CL, cs.AI
2025-08-22
Авторы:
Guangzhan Wang, Hongyu Zhang, Beijun Shen, Xiaodong Gu
Резюме на русском
## Контекст
Область глубокого обучения становится все более важной в современных технологиях, и существующие методы данных выгрузки используются для улучшения моделей. Одна из ключевых проблем в этой области — текстовая аугментация, которая требует создания разнообразных и качественных вариантов текста. Традиционные методы, такие как Back-translation, ограничены преобразованиями на уровне лексем и создают версии с одной семантикой. Улучшение этого подхода требует новых подходов для создания контролируемых и стилизованных вариантов текста. Мотивация заключается в развитии новой методологии, которая могла бы оптимально использовать знания, полученные из больших языковых моделей (LLMs), для эффективной аугментации текста.
## Метод
Метод LMTransplant, предложенный в данной работе, основывается на двух этапах: "пересадка" и "регенерация". На первом этапе LLM расширяет контекст информации из семианточных логов, а затем, на втором этапе, генерирует новый вариант текста, основываясь на расширенном контексте. Этот подход позволяет обеспечить более высокий уровень разнообразия и творчества в создании текста. Архитектура LMTransplant построена на LLM, которая использует эти этапы для наиболее эффективного применения знаний модели.
## Результаты
Эксперименты проводились на различных текстовых задачах, включая различные домены и типы текстов. Данные для экспериментов были получены из различных источников, включая общественные базы данных и синтетические данные. Результаты показали, что LMTransplant превосходит существующие методы по метрикам качества, таким как BLEU и ROUGE. Было продемонстрировано, что метод не только создает более разнообразные варианты, но и сохраняет главные атрибуты исходного текста. Также были проведены эксперименты с большими объемами генерируемых данных, подтвердив высокую масштабируемость LMTransplant.
## Значимость
Предложенный подход имеет широкие применения в задачах глубокого обучения, таких как синтез текста, оценка качества текста, трансляция и другие. Главные преимущества LMTransplant заключаются в своей способности создавать более разнообразные и стилизованные варианты текста с меньшим трудоемкостным контролем процесса. Благодаря своей масштабируемости, LMTransplant может быть применен в сложных задачах, где требуется большой объем генерируемого текста. Это может иметь потенциал для улучшения моделей в области NLP, включая вопросы роботов и другие сложные задачи.
## Выводы
В ходе данного исследования был предложен новый подход к текстовой аугментации — LMTransplant. Он доказал свою эффективность, превосходя существующ
Abstract
Data augmentation is a critical technique in deep learning. Traditional
methods like Back-translation typically focus on lexical-level rephrasing,
which primarily produces variations with the same semantics. While large
language models (LLMs) have enhanced text augmentation by their "knowledge
emergence" capability, controlling the style and structure of these outputs
remains challenging and requires meticulous prompt engineering. In this paper,
we propose LMTransplant, a novel text augmentation paradigm leveraging LLMs.
The core idea of LMTransplant is transplant-then-regenerate: incorporating seed
text into a context expanded by LLM, and asking the LLM to regenerate a variant
based on the expanded context. This strategy allows the model to create more
diverse and creative content-level variants by fully leveraging the knowledge
embedded in LLMs, while preserving the core attributes of the original text. We
evaluate LMTransplant across various text-related tasks, demonstrating its
superior performance over existing text augmentation methods. Moreover,
LMTransplant demonstrates exceptional scalability as the size of augmented data
grows.
Ссылки и действия
Дополнительные ресурсы: