No Alignment Needed for Generation: Learning Linearly Separable Representations in Diffusion Models

2509.21565v1 cs.CV, cs.AI, cs.LG 2025-09-30
Авторы:

Junno Yun, Yaşar Utku Alçalar, Mehmet Akçakaya

Резюме на русском

#### Контекст Современные искусственные нейронные сети, особенно те, которые применяются в области синтеза изображений, требуют эффективных стратегий обучения для повышения качества генерируемых данных. Одним из ключевых аспектов является повышение качества интерпретируемых представлений в этих моделях. Одним из популярных подходов является стратегия выравнивания представлений, которая основывается на использовании высококачественных внешних энкодеров. Однако этот подход имеет серьезные ограничения, такие как высокая стоимость вычислительных ресурсов, необходимых для обучения энкодера, а также возможность улучшения результатов только в контексте задач, которые решаются внешним энкодером. В этой работе мы предлагаем альтернативную стратегию, основывающуюся на продвижении линейной отделимости (Linear SEParability, LSEP) внутренних представлений модели, что позволяет избежать необходимости использования дополнительных энкодеров и требует меньшего количества вычислительных ресурсов. #### Метод Мы предлагаем метод, основанный на подходе, называемом Linear SEParability (LSEP), который имеет вид регуляризатора в процессе обучения модели. Метод заключается в том, чтобы поощрять слои сети, чтобы их выходные представления были линейно отделимы, чтобы сделать их более легко интерпретируемым. Технический подход состоит в вычислении метрики LSEP во время обучения и ее интеграции в оптимизационный процесс. Архитектура обучения основывается на методе проксирования линейных классификаторов, но в отличие от стратегий выравнивания представлений, LSEP не требует внешних энкодеров. В качестве главной модели использована модель SiT (Vision Transformer for Image Synthesis), которая является мощной архитектурой для генерации изображений. #### Результаты Для проверки эффективности предложенного подхода, мы провели ряд экспериментов на данных ImageNet, включая вычисление FID (Frechet Inception Distance), чтобы оценить качество генерируемых изображений. Мы сравнили нашу модель с другими подходами, включая стратегии выравнивания представлений. Наши результаты показали, что LSEP значительно повышает эффективность обучения и качество генерируемых изображений. Так, на той же $256 \times 256$ ImageNet-датесете, мы достигли FID равного 1.46, что значительно превосходит результаты других подходов. Кроме того, мы проверили эффективность наших регуляризаторов в других задачах, таких как обнаружение объектов и анализ изображений, где LSEP также показал существенные улучшения. #### Значимость Наш подход имеет широкое применение в области генерации изображений и анализа изображений. Он позволяет обойти ограничения стратегий выравнивания представлений,

Abstract

Efficient training strategies for large-scale diffusion models have recently emphasized the importance of improving discriminative feature representations in these models. A central line of work in this direction is representation alignment with features obtained from powerful external encoders, which improves the representation quality as assessed through linear probing. Alignment-based approaches show promise but depend on large pretrained encoders, which are computationally expensive to obtain. In this work, we propose an alternative regularization for training, based on promoting the Linear SEParability (LSEP) of intermediate layer representations. LSEP eliminates the need for an auxiliary encoder and representation alignment, while incorporating linear probing directly into the network's learning dynamics rather than treating it as a simple post-hoc evaluation tool. Our results demonstrate substantial improvements in both training efficiency and generation quality on flow-based transformer architectures such as SiTs, achieving an FID of 1.46 on $256 \times 256$ ImageNet dataset.

Ссылки и действия