Diffusion Generative Models Meet Compressed Sensing, with Applications to Image Data and Financial Time Series

2509.03898v1 stat.ML, cs.AI, cs.LG 2025-09-06
Авторы:

Zhengyi Guo, Jiatu Li, Wenpin Tang, David D. Yao

Резюме на русском

#### Контекст Диффузионные генеритивные модели (DGM) широко применяются в области синтеза данных, предсказания, моделирования и других задачах. Однако инференция в этих моделях часто требует больших вычислительных ресурсов, особенно при обработке больших данных, таких как изображения или финансовые временные ряды. Это приводит к увеличению времени обучения и вычислений, что становится критичным в сценариях, требующих реального времени. Для улучшения эффективности используются техники сжатия данных, но они могут привести к потере информации и снижению точности. Мотивация для данного исследования заключается в разработке более эффективных методов для ускорения инференции DGM при сохранении качества сгенерированных данных. #### Метод Проект включает в себя интеграцию технологии сжатия сигнала (compressed sensing) с DGM. Основными этапами методики являются: 1. **Сжатие данных**: авторы разработали методику сжатия данных в низком размерном пространстве (latent space) с помощью сингулярных значений, которая позволяет сохранить основные особенности данных. 2. **Обучение модели**: после сжатия данные обучают DGM в сжатом пространстве, что позволяет уменьшить вычислительные затраты. 3. **Сжатие при выводе**: при генерации новых данных, используется сжатие сигнала для ускорения инференции. Таким образом, DGM объединяет в себе сжатие данных и основную инференцию, что делает процесс обучения и применения модели более эффективным. Архитектура модели построена на основе теории сжатия сигнала и DGM. Она использует методы линейного сжатия и нелинейного моделирования для построения компактных представлений данных. Это позволяет уменьшить количество параметров, необходимых для обучения, при этом сохраняя качество сгенерированных данных. #### Результаты Для проверки эффективности разработанных методов проводились эксперименты на различных наборах данных, включая изображения (рукописные цифры, медицинские изображения, климатические данные) и финансовые временные ряды. Использовались метрики, такие как качество генерируемых изображений (PSNR, SSIM) и точность предсказаний временных рядов. Результаты показали, что интеграция сжатия сигнала с DGM приводит к значительному увеличению скорости инференции без существенного ухудшения точности. Кроме того, было показано, что подбор оптимального размера latent space может существенно повлиять на эффективность модели. #### Значимость Разработанный подход имеет широкое применение в синтезе и обработке данных, в том числе в области изображений и финансовых анализов. Он позволяет увеличить скорость инференции DGM, что критично для реального времени приложений, таких как

Abstract

This paper develops dimension reduction techniques for accelerating diffusion model inference in the context of synthetic data generation. The idea is to integrate compressed sensing into diffusion models: (i) compress the data into a latent space, (ii) train a diffusion model in the latent space, and (iii) apply a compressed sensing algorithm to the samples generated in the latent space, facilitating the efficiency of both model training and inference. Under suitable sparsity assumptions on data, the proposed algorithm is proved to enjoy faster convergence by combining diffusion model inference with sparse recovery. As a byproduct, we obtain an optimal value for the latent space dimension. We also conduct numerical experiments on a range of datasets, including image data (handwritten digits, medical images, and climate data) and financial time series for stress testing.

Ссылки и действия