Missing Fine Details in Images: Last Seen in High Frequencies
2509.05441v2
cs.CV, cs.LG
2025-09-10
Авторы:
Tejaswini Medi, Hsien-Yi Wang, Arianna Rampini, Margret Keuper
Резюме на русском
Раздел **Контекст**
------------------------------
### Область исследования и мотивация
Область исследования сосредотачивается на развитии систем, которые могут генерировать высококачественные и реалистичные изображения. Несмотря на успехы в области глубокого обучения, существуют значимые проблемы в сохранении тонких деталей и характеристик в генерируемых изображениях. В частности, большинство текущих моделей склонны потерять высокочастотную информацию, что приводит к сглаживанию и отсутствию реалистичных текстур. Это явление становится особенно заметным при генерации текстурных изображений, где неточности в высоких частотных компонентах могут повлиять на визуальный впечатление. Наша мотивация заключается в разработке метода, который может эффективно оптимизировать высокочастотные компоненты, сохранив глобальную структуру и реалистичность.
## **Метод**
------------------------------
### Описание методологии
Мы предлагаем **Wavelet-Based Frequency-Aware Variational Autoencoder (FA-VAE)**, новая архитектура, которая использует техники wavelet-анализа для разделения изображений на низкочастотные и высокочастотные компоненты. Фаза выделения формирует представление в виде глобальной и локальной структуры, что позволяет модели сосредотачиваться на тонких деталях без ущерба глобальной структуре. Мы также предлагаем новую функцию потерь, которая оптимизирует как низкочастотные, так и высокочастотные компоненты. Этот подход позволяет избежать сглаживания, которое часто встречается в традиционных VAE. Мы также используем подход с менее значительным переобучением, чтобы избежать ошибок в генерации.
### Технические решения и архитектура
Наша модель состоит из двух основных модулей: **Wavelet Transform Module (WTM)** и **Frequency-Aware Decoder (FAD)**. WTM выделяет высокочастотные компоненты, которые затем обрабатываются FAD. Для обучения мы используем **Frequency-Aware Loss (FAL)**, который минимизирует ошибки как в низких, так и в высоких частотах. Мы также используем генеративную модель второго этапа, которая интегрирует наши полученные высокочастотные представления в существующую модель генерации изображений.
## **Результаты**
------------------------------
### Описание экспериментов
Мы провели эксперименты с использованием различных датасетов, включая текстурные изображения и лица. Мы сравнивали нашу модель с тремя популярными VAE-моделями, которые используются в современных генеративных моделях. Мы измеряли **PSNR** (Peak Signal-to-Noise Ratio), **SSIM** (Structural Similarity Index) и **LPIPS** (Learned Perceptual Image Patch Similarity) для оценки качества. Наши результаты показали, что FA-VAE превосходит существующие модели во всех метриках, особенно в области высокочастотных деталей. Мы также проверили
Abstract
Latent generative models have shown remarkable progress in high-fidelity
image synthesis, typically using a two-stage training process that involves
compressing images into latent embeddings via learned tokenizers in the first
stage. The quality of generation strongly depends on how expressive and
well-optimized these latent embeddings are. While various methods have been
proposed to learn effective latent representations, generated images often lack
realism, particularly in textured regions with sharp transitions, due to loss
of fine details governed by high frequencies. We conduct a detailed frequency
decomposition of existing state-of-the-art (SOTA) latent tokenizers and show
that conventional objectives inherently prioritize low-frequency
reconstruction, often at the expense of high-frequency fidelity. Our analysis
reveals these latent tokenizers exhibit a bias toward low-frequency information
during optimization, leading to over-smoothed outputs and visual artifacts that
diminish perceptual quality. To address this, we propose a wavelet-based,
frequency-aware variational autoencoder (FA-VAE) framework that explicitly
decouples the optimization of low- and high-frequency components. This
decoupling enables improved reconstruction of fine textures while preserving
global structure. Moreover, we integrate our frequency-preserving latent
embeddings into a SOTA latent diffusion model, resulting in sharper and more
realistic image generation. Our approach bridges the fidelity gap in current
latent tokenizers and emphasizes the importance of frequency-aware optimization
for realistic image synthesis, with broader implications for applications in
content creation, neural rendering, and medical imaging.
Ссылки и действия
Дополнительные ресурсы: