Autoguided Online Data Curation for Diffusion Model Training

2509.15267v1 cs.CV, cs.AI, cs.LG 2025-09-22
Авторы:

Valeria Pais, Luis Oala, Daniele Faccio, Marco Aversa

Резюме на русском

----------------------------------------------------------------------------------------------------------------------- ## Контекст ----------------------------------------------------------------------------------------------------------------------- Область исследования связана с повышением эффективности обучения генерирующих моделей с помощью автоматического выбора данных. Исследователи сталкиваются с проблемой высоких затрат на вычисления при обучении различных генерирующих моделей, таких как diffusion models. Эти модели требуют больших объемов качественных данных для эффективного обучения, что ставит перед исследователями задачу оптимизации процесса выбора данных. Многие методы поиска и выбора эффективных примеров включают ручную интервенцию или требуют постоянного мониторинга, что требует значительных ресурсов. В этой работе авторы рассматривают новые подходы, которые могут автоматизировать этот процесс и улучшить эффективность обучения. ## Метод ----------------------------------------------------------------------------------------------------------------------- Работа основывается на интеграции двух подходов: **Joint Example Selection (JEST)** и **autoguidance**. JEST представляет собой метод оптимизации выбора примеров в каждой эпохе обучения. Он использует априорные сведения об эффективности примеров и адаптируется к изменениям в данных. Autoguidance, в свою очередь, метод подбора примеров, основанный на оценке качества каждого примера во время обучения. Авторы создали унифицированную среду для эффективного проведения экспериментов. Она позволяет легко адаптировать и сравнивать различные стратегии выбора примеров. Эксперименты проводятся на синтетических и реальных данных, чтобы оценить качество и эффективность разных подходов в условиях различных задач. ## Результаты ----------------------------------------------------------------------------------------------------------------------- Исследование проводилось на двух задачах: генерации 2D-синтетических данных и (3x64x64)-D изображений. Результаты показали, что автоматическое выбор примеров (autoguidance) постоянно улучшает качество и разнообразие сгенерированных данных. Метод JEST в свою очередь показал высокую эффективность в начале обучения, но требует большего времени и усилий для реализации. В сравнении с автоматическим выбором, JEST дает незначительные преимущества в данных задачах, однако необходимость в дополнительных вычислительных мощностях и сложности приводят к тому, что лучший выбор для большинства задач остается автоматическим выбором примеров. ## Значимость ----------------------------------------------------------------------------------------------------------------------- Результаты этого исследования имеют практическое значение для области генерирующих моделей и данных. Автогуидинг позволяет эффективно использовать ресурсы, сокращая время и стоимость обучения моделей. Это важно для приложений, где ресурсы вычислений ограничены. Методы, рассмотренные в работе, также могут быть применены в областях, где требуется оптимизация выбора данных, таких как медицина, компьютерного зрения и естественного языка. ## Выводы ----------------------------------------------------------------------------------------------------------------------- Исследование показало, что автоматич

Abstract

The costs of generative model compute rekindled promises and hopes for efficient data curation. In this work, we investigate whether recently developed autoguidance and online data selection methods can improve the time and sample efficiency of training generative diffusion models. We integrate joint example selection (JEST) and autoguidance into a unified code base for fast ablation and benchmarking. We evaluate combinations of data curation on a controlled 2-D synthetic data generation task as well as (3x64x64)-D image generation. Our comparisons are made at equal wall-clock time and equal number of samples, explicitly accounting for the overhead of selection. Across experiments, autoguidance consistently improves sample quality and diversity. Early AJEST (applying selection only at the beginning of training) can match or modestly exceed autoguidance alone in data efficiency on both tasks. However, its time overhead and added complexity make autoguidance or uniform random data selection preferable in most situations. These findings suggest that while targeted online selection can yield efficiency gains in early training, robust sample quality improvements are primarily driven by autoguidance. We discuss limitations and scope, and outline when data selection may be beneficial.

Ссылки и действия