Generative Data Refinement: Just Ask for Better Data

2509.08653v2 cs.LG, cs.CL 2025-09-12

Авторы:

Minqi Jiang, João G. M. Araújo, Will Ellsworth, Sian Gooding, Edward Grefenstette

Резюме на русском

## Контекст В современном машинном обучении модели обладают мощными возможностями, но существуют ограничения, связанные с качеством и количеством тренировочных данных. Обучающиеся данные растут быстрее, чем индексируются новые данные в сети, что приводит к ожидаемой эксгаустии в ближайшем будущем. Кроме этого, часть полезных данных, такая как пользовательское содержимое, не доступна в открытом доступе из-за риска утечки конфиденциальной информации. Это создает сложность при построении эффективных моделей. Мы предлагаем фреймворк Generative Data Refinement (GDR) для преобразования данных, используя предобученные генеративные модели, чтобы избавиться от нежелательного содержимого и улучшить свойства тренировочных данных. ## Метод GDR основывается на использовании предобученных генеративных моделей, которые могут преобразовать данные с нежелательным содержимым в более приемлемый формат. Метод использует два этапа: идентификацию нежелательных частей и их замену синтетическими данными, сгенерированными на основе оригинальных примеров. Данная техника позволяет сохранить разнообразие данных и избежать рисков, связанных с выставлением нежелательных данных. Мы используем архитектуру, основанную на вариационных автокодировщиках и генеративных моделях, для оптимизации процесса. ## Результаты Мы проверили GDR на различных тестовых данных, включая высоконебезопасные данные, где встречаются угрозы конфиденциальности или откровенно оскорбительное содержимое. Наши эксперименты показали, что GDR эффективно удаляет нежелательные данные и создает более качественные обучающие данные. Например, в сравнении с аналогичными системами, GDR демонстрирует высокую точность и уровень удовлетворенности пользователей. Мы также проверили способность метода генерировать разнообразные данные, что позволяет избежать проблем, связанных с недостаточностью разнообразия в синтетических данных. ## Значимость GDR может применяться в различных областях, где требуется высококачественное и безопасное обучение моделей, включая безопасность, образование и здравоохранение. Он позволяет увеличить объем обучающих данных за счет генерации новых примеров, совместимых с оригинальным датасетом. Преимущества GDR заключаются в простоте и эффективности, позволяющих решать проблему недостатка данных без необходимости сбора новых данных. Будущим исследованиям следует обратить внимание на расширение функционала GDR для улучшения качества генерируемых данных и его применение в реальных ситуациях. ## Выводы Мы представили Generative Data Refinement (GDR), метод, который использует генеративные модели для улуч

Abstract

For a fixed parameter size, the capabilities of large models are primarily determined by the quality and quantity of its training data. Consequently, training datasets now grow faster than the rate at which new data is indexed on the web, leading to projected data exhaustion over the next decade. Much more data exists as user-generated content that is not publicly indexed, but incorporating such data comes with considerable risks, such as leaking private information and other undesirable content. We introduce a framework, Generative Data Refinement (GDR), for using pretrained generative models to transform a dataset with undesirable content into a refined dataset that is more suitable for training. Our experiments show that GDR can outperform industry-grade solutions for dataset anonymization, as well as enable direct detoxification of highly unsafe datasets. Moreover, we show that by generating synthetic data that is conditioned on each example in the real dataset, GDR's refined outputs naturally match the diversity of web scale datasets, and thereby avoid the often challenging task of generating diverse synthetic data via model prompting. The simplicity and effectiveness of GDR make it a powerful tool for scaling up the total stock of training data for frontier models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Generative Data Refinement: Just Ask for Better Data

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

Towards Active Synthetic Data Generation for Finetuning Language Models

AlignSAE: Concept-Aligned Sparse Autoencoders

Measuring What LLMs Think They Do: SHAP Faithfulness and Deployability on Financ...

BanglaSentNet: An Explainable Hybrid Deep Learning Framework for Multi-Aspect Se...

Навигация