Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models
2508.09968v1
cs.LG, cs.CV
2025-08-15
Авторы:
Luca Eyring, Shyamgopal Karthik, Alexey Dosovitskiy, Nataniel Ruiz, Zeynep Akata
Резюме на русском
## Контекст
На сегодняшний день, тест-тайм скейлинг (test-time scaling) стал одной из ключевых тем в исследованиях по машинному обучению, особенно в сфере генерирующих моделей и трансформерных моделей. Этот подход позволяет моделям эффективно использовать дополнительные вычислительные ресурсы во время теста для увеличения точности или достижения более качественных результатов. Однако существует одна значительная проблема: повышение вычислительного времени приводит к увеличению затрат и неэффективности во время работы в реальном времени. Например, в случае диффузионных моделей, ряд исследований показал, что дополнительная оптимизация шума на тестовом этапе может повысить качество результатов. Но эта дополнительная оптимизация носит высокую стоимость и не всегда приемлема в быстрых сценариях работы. Мы предлагаем новый подход, позволяющий интегрировать выгоды тест-тайм скейлинга в модель после обучения.
## Метод
Мы предлагаем Noise Hypernetwork, архитектура, которая манипулирует начальным шумом в процессе работы диффузионной модели. Этот шум модифицируется с помощью гиперсети, которая достигает желаемого шума на основе входного объекта. Мы используем теоретически обоснованный фреймворк, основанный на целевой функции, которая следует за целевым распределением. Наша модель обучается таким образом, чтобы оптимизировать шум, учитывая желаемую выходную фидлизацию. Мы использовали диффузионную модель Stable Diffusion в качестве базовой модели и проверяли нашу архитектуру на различных датасетах, таких как LSUN и COCO.
## Результаты
Мы провели ряд экспериментов, сравнивая нашу модель с исходной диффузионной моделью и другими подходами, ориентированными на тест-тайм оптимизацию. Мы использовали метрики качества, такие как FID и IS, чтобы измерить качество генерируемых изображений. Результаты показали, что наш подход позволяет получить качество, близкое к точности, достигаемой с использованием тест-тайм оптимизации, но с значительно более низкой стоимостью вычислительных ресурсов. Благодаря Noise Hypernetwork мы удалось сократить затраты времени на тест-тайм оптимизацию до 5 раз, при этом сохранив высокое качество работы модели.
## Значимость
Наш подход имеет широкий спектр применений в сфере генерирующих моделей, включая генерацию изображений, текста и видео. Он может быть использован для ускорения работы моделей в реальном времени, например, в ситуациях, требующих быстрого генерирования контента. Благодаря тому, что наш подход снижает вычислительные затраты, он может сделать тест-тайм оптимизацию доступной для широкого кру
Abstract
The new paradigm of test-time scaling has yielded remarkable breakthroughs in
Large Language Models (LLMs) (e.g. reasoning models) and in generative vision
models, allowing models to allocate additional computation during inference to
effectively tackle increasingly complex problems. Despite the improvements of
this approach, an important limitation emerges: the substantial increase in
computation time makes the process slow and impractical for many applications.
Given the success of this paradigm and its growing usage, we seek to preserve
its benefits while eschewing the inference overhead. In this work we propose
one solution to the critical problem of integrating test-time scaling knowledge
into a model during post-training. Specifically, we replace reward guided
test-time noise optimization in diffusion models with a Noise Hypernetwork that
modulates initial input noise. We propose a theoretically grounded framework
for learning this reward-tilted distribution for distilled generators, through
a tractable noise-space objective that maintains fidelity to the base model
while optimizing for desired characteristics. We show that our approach
recovers a substantial portion of the quality gains from explicit test-time
optimization at a fraction of the computational cost. Code is available at
https://github.com/ExplainableML/HyperNoise
Ссылки и действия
Дополнительные ресурсы: