Autoguided Online Data Curation for Diffusion Model Training
2509.15267v1
cs.CV, cs.AI, cs.LG
2025-09-22
Авторы:
Valeria Pais, Luis Oala, Daniele Faccio, Marco Aversa
Резюме на русском
-----------------------------------------------------------------------------------------------------------------------
## Контекст
-----------------------------------------------------------------------------------------------------------------------
Область исследования связана с повышением эффективности обучения генерирующих моделей с помощью автоматического выбора данных. Исследователи сталкиваются с проблемой высоких затрат на вычисления при обучении различных генерирующих моделей, таких как diffusion models. Эти модели требуют больших объемов качественных данных для эффективного обучения, что ставит перед исследователями задачу оптимизации процесса выбора данных. Многие методы поиска и выбора эффективных примеров включают ручную интервенцию или требуют постоянного мониторинга, что требует значительных ресурсов. В этой работе авторы рассматривают новые подходы, которые могут автоматизировать этот процесс и улучшить эффективность обучения.
## Метод
-----------------------------------------------------------------------------------------------------------------------
Работа основывается на интеграции двух подходов: **Joint Example Selection (JEST)** и **autoguidance**. JEST представляет собой метод оптимизации выбора примеров в каждой эпохе обучения. Он использует априорные сведения об эффективности примеров и адаптируется к изменениям в данных. Autoguidance, в свою очередь, метод подбора примеров, основанный на оценке качества каждого примера во время обучения. Авторы создали унифицированную среду для эффективного проведения экспериментов. Она позволяет легко адаптировать и сравнивать различные стратегии выбора примеров. Эксперименты проводятся на синтетических и реальных данных, чтобы оценить качество и эффективность разных подходов в условиях различных задач.
## Результаты
-----------------------------------------------------------------------------------------------------------------------
Исследование проводилось на двух задачах: генерации 2D-синтетических данных и (3x64x64)-D изображений. Результаты показали, что автоматическое выбор примеров (autoguidance) постоянно улучшает качество и разнообразие сгенерированных данных. Метод JEST в свою очередь показал высокую эффективность в начале обучения, но требует большего времени и усилий для реализации. В сравнении с автоматическим выбором, JEST дает незначительные преимущества в данных задачах, однако необходимость в дополнительных вычислительных мощностях и сложности приводят к тому, что лучший выбор для большинства задач остается автоматическим выбором примеров.
## Значимость
-----------------------------------------------------------------------------------------------------------------------
Результаты этого исследования имеют практическое значение для области генерирующих моделей и данных. Автогуидинг позволяет эффективно использовать ресурсы, сокращая время и стоимость обучения моделей. Это важно для приложений, где ресурсы вычислений ограничены. Методы, рассмотренные в работе, также могут быть применены в областях, где требуется оптимизация выбора данных, таких как медицина, компьютерного зрения и естественного языка.
## Выводы
-----------------------------------------------------------------------------------------------------------------------
Исследование показало, что автоматич
Abstract
The costs of generative model compute rekindled promises and hopes for
efficient data curation. In this work, we investigate whether recently
developed autoguidance and online data selection methods can improve the time
and sample efficiency of training generative diffusion models. We integrate
joint example selection (JEST) and autoguidance into a unified code base for
fast ablation and benchmarking. We evaluate combinations of data curation on a
controlled 2-D synthetic data generation task as well as (3x64x64)-D image
generation. Our comparisons are made at equal wall-clock time and equal number
of samples, explicitly accounting for the overhead of selection. Across
experiments, autoguidance consistently improves sample quality and diversity.
Early AJEST (applying selection only at the beginning of training) can match or
modestly exceed autoguidance alone in data efficiency on both tasks. However,
its time overhead and added complexity make autoguidance or uniform random data
selection preferable in most situations. These findings suggest that while
targeted online selection can yield efficiency gains in early training, robust
sample quality improvements are primarily driven by autoguidance. We discuss
limitations and scope, and outline when data selection may be beneficial.
Ссылки и действия
Дополнительные ресурсы: