HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models

2509.22300v1 cs.CV, cs.AI, cs.LG 2025-09-30
Авторы:

Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber

Резюме на русском

## Контекст Технологии изображения, основанные на диффузионных моделях, показали впечатляющий прогресс в области генерации реалистичных изображений. Однако, даже с последними достижениями, их выходы могут оставаться неполными или недостаточно детализированными, особенно при использовании меньшего количества нейронных оценок (NFEs) или низких уровней гида. Эти ограничения становятся особенно заметными при запуске моделей на устройствах с ограниченными ресурсами. Для улучшения качества и эффективности генерации изображений необходимо разработать методы, которые бы повысили точность и эффективность, не требуя дополнительных вычислительных ресурсов. ## Метод Мы предлагаем **History-Guided Sampling (HiGS)**, моментум-подобный подход, который интегрирует недавние модельные предсказания в каждый шаг инференции. Основная идея заключается в том, чтобы отслеживать и использовать разницу между текущим предсказанием и взвешенным средним предыдущих предсказаний. Эта разница используется для управления процессом диффузии, чтобы улучшить качество и детализацию изображения. HiGS включает в себя минимальные изменения в существующую архитектуру диффузионных моделей и не требует дополнительного обучения или тюнинга. Он может быть легко интегрирован в любую существующую систему. ## Результаты Мы проверили HiGS на разных моделях диффузии и задачах генерации изображений. Наши эксперименты показали, что HiGS повышает качество изображений в разных сценариях, включая сценарии с низким NFE и малым гидом. Особенно заметного улучшения было замечено при использовании 256x256 ImageNet модели, где HiGS достиг нового рекорда FID (Frechet Inception Distance) в 1.61 за 30 шагов, вместо обычных 250, показывая его эффективность при ограниченных вычислительных ресурсах. ## Значимость HiGS представляет собой значительное улучшение для стандартных диффузионных моделей. Он позволяет повысить качество изображений, уменьшить количество нейронных оценок и уменьшить время генерации. Этот подход имеет широкие применения в области AI-генерации изображений, в том числе генерации высококачественных изображений в реальном времени, создании высококачественных графических моделей, а также в сфере машинного обучения на устройствах с ограниченным объемом ресурсов. ## Выводы HiGS подтверждает свою эффективность как мощный инструмент для улучшения качества изображений в диффузионных моделях. Он обеспечивает быструю генерацию высококачественных изображений с меньшим количеством нейронных оценок. В дальнейшем, HiGS может быть расширен для работы с различными типами моделей и задачах,

Abstract

While diffusion models have made remarkable progress in image generation, their outputs can still appear unrealistic and lack fine details, especially when using fewer number of neural function evaluations (NFEs) or lower guidance scales. To address this issue, we propose a novel momentum-based sampling technique, termed history-guided sampling (HiGS), which enhances quality and efficiency of diffusion sampling by integrating recent model predictions into each inference step. Specifically, HiGS leverages the difference between the current prediction and a weighted average of past predictions to steer the sampling process toward more realistic outputs with better details and structure. Our approach introduces practically no additional computation and integrates seamlessly into existing diffusion frameworks, requiring neither extra training nor fine-tuning. Extensive experiments show that HiGS consistently improves image quality across diverse models and architectures and under varying sampling budgets and guidance scales. Moreover, using a pretrained SiT model, HiGS achieves a new state-of-the-art FID of 1.61 for unguided ImageNet generation at 256$\times$256 with only 30 sampling steps (instead of the standard 250). We thus present HiGS as a plug-and-play enhancement to standard diffusion sampling that enables faster generation with higher fidelity.

Ссылки и действия