Toward Architecture-Agnostic Local Control of Posterior Collapse in VAEs
2508.12530v1
cs.LG, cs.CV, stat.ML, I.2.6
2025-08-20
Авторы:
Hyunsoo Song, Seungwhan Kim, Seungkyu Lee
Резюме на русском
## Контекст
Variational autoencoders (VAEs) широко используются в генерирующих моделях, но страдают от постепенного распада постерона (posterior collapse), что приводит к уменьшению разнообразия генерируемых выборок. Эта проблема связана с неверным балансом между реконструкцией и регуляризацией. Отсутствие взаимозависимости между активными компонентами в локальном пространстве позволяет постерону распадаться. Из-за этого многие работы прибегают к структурным ограничениям сети, но это приводит к жестким контролам на архитектуру. Существующие подходы, такие как подходы к упорядочиванию и разметке, неэффективны для устранения постерона. Мы предлагаем новый подход, который не зависит от архитектуры, чтобы решать эту проблему на уровне предобученных сетей.
## Метод
Мы предлагаем Latent Reconstruction (LR) loss, который строится на математических свойствах инъективных и составных функций. Этот подход позволяет избежать постерона без ограничений на архитектуру. Основной идеей является, что LR loss оптимизирует соответствие между индивидуальными точками данных и их представлениями в локальном пространстве. Мы используем различные выборки данных, такие как MNIST, fashionMNIST, Omniglot, CelebA, и FFHQ, чтобы продемонстрировать эффективность нашего подхода. Метод позволяет контролировать постеронные распады, не привязываясь к конкретной архитектуре, что делает его гибким и универсальным.
## Результаты
Мы проверили наш подход на популярных датасетах, таких как MNIST, fashionMNIST, Omniglot, CelebA и FFHQ. Оценивая постеронные распады, мы применили LR loss к каждому датасету и сравнили результаты с другими подходами. Наши эксперименты показали, что LR loss эффективно уменьшает постеронные распады, улучшая разнообразие генерируемых выборок и поддерживая упорядоченность в локальном пространстве. Эти результаты показывают, что Latent Reconstruction loss является эффективным средством для управления постероном, не привязываясь к конкретной структуре сети.
## Значимость
Наша работа имеет значительное значение для развития методов управления постероном в VAEs. Он позволяет улучшить диверсификацию вывода, что может иметь приложение в машинном обучении, визуальном поиске, изображении и даже в глубоком обучении. Мы предлагаем гибкий подход, который может быть применен к различным сетям без жестких контрольных ограничений. Это делает LR loss очень привлекательным для развития в области генерирующих моделей, таких как VAEs, и может способствовать развитию новых подходов в области глубокого обучения.
## Выводы
Мы продемонстрировали эффективность Latent Reconstruction loss в управлении постероном в VAEs, не привязываясь к
Abstract
Variational autoencoders (VAEs), one of the most widely used generative
models, are known to suffer from posterior collapse, a phenomenon that reduces
the diversity of generated samples. To avoid posterior collapse, many prior
works have tried to control the influence of regularization loss. However, the
trade-off between reconstruction and regularization is not satisfactory. For
this reason, several methods have been proposed to guarantee latent
identifiability, which is the key to avoiding posterior collapse. However, they
require structural constraints on the network architecture. For further
clarification, we define local posterior collapse to reflect the importance of
individual sample points in the data space and to relax the network constraint.
Then, we propose Latent Reconstruction(LR) loss, which is inspired by
mathematical properties of injective and composite functions, to control
posterior collapse without restriction to a specific architecture. We
experimentally evaluate our approach, which controls posterior collapse on
varied datasets such as MNIST, fashionMNIST, Omniglot, CelebA, and FFHQ.