Transition Models: Rethinking the Generative Learning Objective
2509.04394v1
cs.LG, cs.CV
2025-09-06
Авторы:
Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai
Резюме на русском
## Контекст
Генерируемые модели (generative models) широко используются в различных областях, включая генерирование изображений, текста и звука. Однако существуют значительные проблемы, связанные с балансом качества и эффективностью. Например, модели с использованием итеративных методов, таких как основанные на диффузии (diffusion models), достигают высокого качества, но при этом требуют большого количества вычислительных ресурсов. Альтернативные методы, которые стремятся к более быстрому получению результатов, часто сталкиваются с тем, что потеряны качественные характеристики. Таким образом, требуется разработка новых подходов, которые обеспечат качественную работу с меньшим использованием ресурсов.
## Метод
Мы предлагаем новую модель, названную Transition Models (TiM), которая основывается на аналитических вычислениях транзиционных моделей (transition dynamics). Ее основная идея заключается в том, чтобы вводить подход, который адаптируется к любому числу шагов генерации, от одного шага до многошагового процесса. Модель использует аналитические выражения для определения транзиций в любой точке пространства состояний, что позволяет эффективно связать шаги генерации. Ключевые моменты в оценке модели включают аналитический метод и его высокую монотонность при увеличении числа шагов.
## Результаты
Мы провели эксперименты с различными данными и сравнили модель TiM с людей, в том числе с SD3.5 (8B параметров) и FLUX.1 (12B параметров). Наши результаты показали, что TiM не только превосходит эти модели в тех же условиях, но и достигает высокого качества результатов при более низком числе шагов. Например, TiM достигла того же уровня качества, что и SD3.5, но с значительно меньшим количеством параметров. Это показывает, что модель может эффективно строить результаты с монотонным повышением качества при увеличении числа шагов.
## Значимость
Мы применили нашу модель в различных сценариях, включая генерирование изображений в высоких разрешениях (до 4096x4096 пикселей). Эффективность модели при генерации высококачественных изображений, даже при небольшом числе шагов, делает ее привлекательной для применения в реальных ситуациях. Модель также показала заметный потенциал для улучшения оптимизации использования ресурсов в генерировании изображений, что может привести к значительному экономическому эффекту.
## Выводы
Мы представили Transition Models (TiM), которые предлагают новый подход к генерированию моделей, который адресует проблемы баланса качества и эффективности в генерировании моделей. Наши результаты показывают, что модель может достигать высокого кач
Abstract
A fundamental dilemma in generative modeling persists: iterative diffusion
models achieve outstanding fidelity, but at a significant computational cost,
while efficient few-step alternatives are constrained by a hard quality
ceiling. This conflict between generation steps and output quality arises from
restrictive training objectives that focus exclusively on either infinitesimal
dynamics (PF-ODEs) or direct endpoint prediction. We address this challenge by
introducing an exact, continuous-time dynamics equation that analytically
defines state transitions across any finite time interval. This leads to a
novel generative paradigm, Transition Models (TiM), which adapt to
arbitrary-step transitions, seamlessly traversing the generative trajectory
from single leaps to fine-grained refinement with more steps. Despite having
only 865M parameters, TiM achieves state-of-the-art performance, surpassing
leading models such as SD3.5 (8B parameters) and FLUX.1 (12B parameters) across
all evaluated step counts. Importantly, unlike previous few-step generators,
TiM demonstrates monotonic quality improvement as the sampling budget
increases. Additionally, when employing our native-resolution strategy, TiM
delivers exceptional fidelity at resolutions up to 4096x4096.
Ссылки и действия
Дополнительные ресурсы: