Transplant Then Regenerate: A New Paradigm for Text Data Augmentation

2508.14723v1 cs.CL, cs.AI 2025-08-22

Авторы:

Guangzhan Wang, Hongyu Zhang, Beijun Shen, Xiaodong Gu

Резюме на русском

## Контекст Область глубокого обучения становится все более важной в современных технологиях, и существующие методы данных выгрузки используются для улучшения моделей. Одна из ключевых проблем в этой области — текстовая аугментация, которая требует создания разнообразных и качественных вариантов текста. Традиционные методы, такие как Back-translation, ограничены преобразованиями на уровне лексем и создают версии с одной семантикой. Улучшение этого подхода требует новых подходов для создания контролируемых и стилизованных вариантов текста. Мотивация заключается в развитии новой методологии, которая могла бы оптимально использовать знания, полученные из больших языковых моделей (LLMs), для эффективной аугментации текста. ## Метод Метод LMTransplant, предложенный в данной работе, основывается на двух этапах: "пересадка" и "регенерация". На первом этапе LLM расширяет контекст информации из семианточных логов, а затем, на втором этапе, генерирует новый вариант текста, основываясь на расширенном контексте. Этот подход позволяет обеспечить более высокий уровень разнообразия и творчества в создании текста. Архитектура LMTransplant построена на LLM, которая использует эти этапы для наиболее эффективного применения знаний модели. ## Результаты Эксперименты проводились на различных текстовых задачах, включая различные домены и типы текстов. Данные для экспериментов были получены из различных источников, включая общественные базы данных и синтетические данные. Результаты показали, что LMTransplant превосходит существующие методы по метрикам качества, таким как BLEU и ROUGE. Было продемонстрировано, что метод не только создает более разнообразные варианты, но и сохраняет главные атрибуты исходного текста. Также были проведены эксперименты с большими объемами генерируемых данных, подтвердив высокую масштабируемость LMTransplant. ## Значимость Предложенный подход имеет широкие применения в задачах глубокого обучения, таких как синтез текста, оценка качества текста, трансляция и другие. Главные преимущества LMTransplant заключаются в своей способности создавать более разнообразные и стилизованные варианты текста с меньшим трудоемкостным контролем процесса. Благодаря своей масштабируемости, LMTransplant может быть применен в сложных задачах, где требуется большой объем генерируемого текста. Это может иметь потенциал для улучшения моделей в области NLP, включая вопросы роботов и другие сложные задачи. ## Выводы В ходе данного исследования был предложен новый подход к текстовой аугментации — LMTransplant. Он доказал свою эффективность, превосходя существующ

Abstract

Data augmentation is a critical technique in deep learning. Traditional methods like Back-translation typically focus on lexical-level rephrasing, which primarily produces variations with the same semantics. While large language models (LLMs) have enhanced text augmentation by their "knowledge emergence" capability, controlling the style and structure of these outputs remains challenging and requires meticulous prompt engineering. In this paper, we propose LMTransplant, a novel text augmentation paradigm leveraging LLMs. The core idea of LMTransplant is transplant-then-regenerate: incorporating seed text into a context expanded by LLM, and asking the LLM to regenerate a variant based on the expanded context. This strategy allows the model to create more diverse and creative content-level variants by fully leveraging the knowledge embedded in LLMs, while preserving the core attributes of the original text. We evaluate LMTransplant across various text-related tasks, demonstrating its superior performance over existing text augmentation methods. Moreover, LMTransplant demonstrates exceptional scalability as the size of augmented data grows.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Transplant Then Regenerate: A New Paradigm for Text Data Augmentation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация