Missing Fine Details in Images: Last Seen in High Frequencies

2509.05441v2 cs.CV, cs.LG 2025-09-10
Авторы:

Tejaswini Medi, Hsien-Yi Wang, Arianna Rampini, Margret Keuper

Резюме на русском

Раздел **Контекст** ------------------------------ ### Область исследования и мотивация Область исследования сосредотачивается на развитии систем, которые могут генерировать высококачественные и реалистичные изображения. Несмотря на успехы в области глубокого обучения, существуют значимые проблемы в сохранении тонких деталей и характеристик в генерируемых изображениях. В частности, большинство текущих моделей склонны потерять высокочастотную информацию, что приводит к сглаживанию и отсутствию реалистичных текстур. Это явление становится особенно заметным при генерации текстурных изображений, где неточности в высоких частотных компонентах могут повлиять на визуальный впечатление. Наша мотивация заключается в разработке метода, который может эффективно оптимизировать высокочастотные компоненты, сохранив глобальную структуру и реалистичность. ## **Метод** ------------------------------ ### Описание методологии Мы предлагаем **Wavelet-Based Frequency-Aware Variational Autoencoder (FA-VAE)**, новая архитектура, которая использует техники wavelet-анализа для разделения изображений на низкочастотные и высокочастотные компоненты. Фаза выделения формирует представление в виде глобальной и локальной структуры, что позволяет модели сосредотачиваться на тонких деталях без ущерба глобальной структуре. Мы также предлагаем новую функцию потерь, которая оптимизирует как низкочастотные, так и высокочастотные компоненты. Этот подход позволяет избежать сглаживания, которое часто встречается в традиционных VAE. Мы также используем подход с менее значительным переобучением, чтобы избежать ошибок в генерации. ### Технические решения и архитектура Наша модель состоит из двух основных модулей: **Wavelet Transform Module (WTM)** и **Frequency-Aware Decoder (FAD)**. WTM выделяет высокочастотные компоненты, которые затем обрабатываются FAD. Для обучения мы используем **Frequency-Aware Loss (FAL)**, который минимизирует ошибки как в низких, так и в высоких частотах. Мы также используем генеративную модель второго этапа, которая интегрирует наши полученные высокочастотные представления в существующую модель генерации изображений. ## **Результаты** ------------------------------ ### Описание экспериментов Мы провели эксперименты с использованием различных датасетов, включая текстурные изображения и лица. Мы сравнивали нашу модель с тремя популярными VAE-моделями, которые используются в современных генеративных моделях. Мы измеряли **PSNR** (Peak Signal-to-Noise Ratio), **SSIM** (Structural Similarity Index) и **LPIPS** (Learned Perceptual Image Patch Similarity) для оценки качества. Наши результаты показали, что FA-VAE превосходит существующие модели во всех метриках, особенно в области высокочастотных деталей. Мы также проверили

Abstract

Latent generative models have shown remarkable progress in high-fidelity image synthesis, typically using a two-stage training process that involves compressing images into latent embeddings via learned tokenizers in the first stage. The quality of generation strongly depends on how expressive and well-optimized these latent embeddings are. While various methods have been proposed to learn effective latent representations, generated images often lack realism, particularly in textured regions with sharp transitions, due to loss of fine details governed by high frequencies. We conduct a detailed frequency decomposition of existing state-of-the-art (SOTA) latent tokenizers and show that conventional objectives inherently prioritize low-frequency reconstruction, often at the expense of high-frequency fidelity. Our analysis reveals these latent tokenizers exhibit a bias toward low-frequency information during optimization, leading to over-smoothed outputs and visual artifacts that diminish perceptual quality. To address this, we propose a wavelet-based, frequency-aware variational autoencoder (FA-VAE) framework that explicitly decouples the optimization of low- and high-frequency components. This decoupling enables improved reconstruction of fine textures while preserving global structure. Moreover, we integrate our frequency-preserving latent embeddings into a SOTA latent diffusion model, resulting in sharper and more realistic image generation. Our approach bridges the fidelity gap in current latent tokenizers and emphasizes the importance of frequency-aware optimization for realistic image synthesis, with broader implications for applications in content creation, neural rendering, and medical imaging.

Ссылки и действия