Discrete Variational Autoencoding via Policy Search
2509.24716v1
cs.LG, cs.AI, cs.RO
2025-10-01
Авторы:
Michael Drolet, Firas Al-Hafez, Aditya Bhatt, Jan Peters, Oleg Arenz
Резюме на русском
#### Контекст
Область исследований в области развития методов обработки и анализа данных чрезвычайно значима в современном мире. Одним из ключевых направлений является развитие методов вариационных автоэнкодеров (VAEs), которые используются для эффективной реконструкции высокого разрешения данных. Одна из проблем в этой области заключается в том, что при использовании дискретных буттленков в VAEs невозможно точно задать параметры автоматически, что приводит к ограничению в дальнейшей интерпретации данных. Мотивацией для данного исследования является развитие метода, который позволит эффективно решать задачи реконструкции данных в высоком разрешении, используя дискретные VAEs.
#### Метод
Для развития дискретных VAEs была применена методология нормального градиента, позволяющая обновлять параметры непараметрического кодировщика с помощью естественного градиента. Для эффективного адаптирования шага обучения была использована автоматическая система адаптации шага. Архитектура основывается на использовании трансформера в качестве кодировщика, что позволяет обрабатывать высокомерные данные. Общая методика состоит в том, чтобы обучать модель так, чтобы она эффективно реконструировала высокомерные данные в низкомерный скрытый пространственный вариант, чтобы уменьшить ошибку восстановления.
#### Результаты
На основе использованных данных, включая высокомерные данные из набора ImageNet, проводились эксперименты. Метод, основанный на нормальном градиенте, показал более высокую эффективность в реконструкции данных по сравнению с другими методами, такими как Gumbel-Softmax и REINFORCE. На многоклассовой задаче реконструкции изображений ImageNet 256 метод показал 20% лучшую оценку FID (Fréchet Inception Distance), чем другие дискретные квантованные автоэнкодеры.
#### Значимость
Предлагаемый метод является перспективным для применения в многочисленных областях, включая обработку изображений, видео и аудио. Он предоставляет высокую точность в реконструкции данных и позволяет эффективно использовать дискретные модели для решения задач многомодального поиска. Этот подход также имеет потенциал для улучшения производительности в системах анализа и визуализации данных, что может иметь значимый вклад в развитие ИИ.
#### Выводы
Предлагаемый подход расширяет возможности дискретных VAEs, позволяя их эффективно применять в задачах реконструкции высокомерных данных. Он показал значительные позитивные результаты в сравнении с другими методами, в частности, лучшую оценку FID в реконструкции изображений ImageNet 256. Будущие исследования будут направлены на улучшение методов обучения, в том числе использование более
Abstract
Discrete latent bottlenecks in variational autoencoders (VAEs) offer high bit
efficiency and can be modeled with autoregressive discrete distributions,
enabling parameter-efficient multimodal search with transformers. However,
discrete random variables do not allow for exact differentiable
parameterization; therefore, discrete VAEs typically rely on approximations,
such as Gumbel-Softmax reparameterization or straight-through gradient
estimates, or employ high-variance gradient-free methods such as REINFORCE that
have had limited success on high-dimensional tasks such as image
reconstruction. Inspired by popular techniques in policy search, we propose a
training framework for discrete VAEs that leverages the natural gradient of a
non-parametric encoder to update the parametric encoder without requiring
reparameterization. Our method, combined with automatic step size adaptation
and a transformer-based encoder, scales to challenging datasets such as
ImageNet and outperforms both approximate reparameterization methods and
quantization-based discrete autoencoders in reconstructing high-dimensional
data from compact latent spaces, achieving a 20% improvement on FID Score for
ImageNet 256.
Ссылки и действия
Дополнительные ресурсы: