Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models

2508.09968v1 cs.LG, cs.CV 2025-08-15
Авторы:

Luca Eyring, Shyamgopal Karthik, Alexey Dosovitskiy, Nataniel Ruiz, Zeynep Akata

Резюме на русском

## Контекст На сегодняшний день, тест-тайм скейлинг (test-time scaling) стал одной из ключевых тем в исследованиях по машинному обучению, особенно в сфере генерирующих моделей и трансформерных моделей. Этот подход позволяет моделям эффективно использовать дополнительные вычислительные ресурсы во время теста для увеличения точности или достижения более качественных результатов. Однако существует одна значительная проблема: повышение вычислительного времени приводит к увеличению затрат и неэффективности во время работы в реальном времени. Например, в случае диффузионных моделей, ряд исследований показал, что дополнительная оптимизация шума на тестовом этапе может повысить качество результатов. Но эта дополнительная оптимизация носит высокую стоимость и не всегда приемлема в быстрых сценариях работы. Мы предлагаем новый подход, позволяющий интегрировать выгоды тест-тайм скейлинга в модель после обучения. ## Метод Мы предлагаем Noise Hypernetwork, архитектура, которая манипулирует начальным шумом в процессе работы диффузионной модели. Этот шум модифицируется с помощью гиперсети, которая достигает желаемого шума на основе входного объекта. Мы используем теоретически обоснованный фреймворк, основанный на целевой функции, которая следует за целевым распределением. Наша модель обучается таким образом, чтобы оптимизировать шум, учитывая желаемую выходную фидлизацию. Мы использовали диффузионную модель Stable Diffusion в качестве базовой модели и проверяли нашу архитектуру на различных датасетах, таких как LSUN и COCO. ## Результаты Мы провели ряд экспериментов, сравнивая нашу модель с исходной диффузионной моделью и другими подходами, ориентированными на тест-тайм оптимизацию. Мы использовали метрики качества, такие как FID и IS, чтобы измерить качество генерируемых изображений. Результаты показали, что наш подход позволяет получить качество, близкое к точности, достигаемой с использованием тест-тайм оптимизации, но с значительно более низкой стоимостью вычислительных ресурсов. Благодаря Noise Hypernetwork мы удалось сократить затраты времени на тест-тайм оптимизацию до 5 раз, при этом сохранив высокое качество работы модели. ## Значимость Наш подход имеет широкий спектр применений в сфере генерирующих моделей, включая генерацию изображений, текста и видео. Он может быть использован для ускорения работы моделей в реальном времени, например, в ситуациях, требующих быстрого генерирования контента. Благодаря тому, что наш подход снижает вычислительные затраты, он может сделать тест-тайм оптимизацию доступной для широкого кру

Abstract

The new paradigm of test-time scaling has yielded remarkable breakthroughs in Large Language Models (LLMs) (e.g. reasoning models) and in generative vision models, allowing models to allocate additional computation during inference to effectively tackle increasingly complex problems. Despite the improvements of this approach, an important limitation emerges: the substantial increase in computation time makes the process slow and impractical for many applications. Given the success of this paradigm and its growing usage, we seek to preserve its benefits while eschewing the inference overhead. In this work we propose one solution to the critical problem of integrating test-time scaling knowledge into a model during post-training. Specifically, we replace reward guided test-time noise optimization in diffusion models with a Noise Hypernetwork that modulates initial input noise. We propose a theoretically grounded framework for learning this reward-tilted distribution for distilled generators, through a tractable noise-space objective that maintains fidelity to the base model while optimizing for desired characteristics. We show that our approach recovers a substantial portion of the quality gains from explicit test-time optimization at a fraction of the computational cost. Code is available at https://github.com/ExplainableML/HyperNoise

Ссылки и действия