Transition Models: Rethinking the Generative Learning Objective

2509.04394v1 cs.LG, cs.CV 2025-09-06
Авторы:

Zidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai

Резюме на русском

## Контекст Генерируемые модели (generative models) широко используются в различных областях, включая генерирование изображений, текста и звука. Однако существуют значительные проблемы, связанные с балансом качества и эффективностью. Например, модели с использованием итеративных методов, таких как основанные на диффузии (diffusion models), достигают высокого качества, но при этом требуют большого количества вычислительных ресурсов. Альтернативные методы, которые стремятся к более быстрому получению результатов, часто сталкиваются с тем, что потеряны качественные характеристики. Таким образом, требуется разработка новых подходов, которые обеспечат качественную работу с меньшим использованием ресурсов. ## Метод Мы предлагаем новую модель, названную Transition Models (TiM), которая основывается на аналитических вычислениях транзиционных моделей (transition dynamics). Ее основная идея заключается в том, чтобы вводить подход, который адаптируется к любому числу шагов генерации, от одного шага до многошагового процесса. Модель использует аналитические выражения для определения транзиций в любой точке пространства состояний, что позволяет эффективно связать шаги генерации. Ключевые моменты в оценке модели включают аналитический метод и его высокую монотонность при увеличении числа шагов. ## Результаты Мы провели эксперименты с различными данными и сравнили модель TiM с людей, в том числе с SD3.5 (8B параметров) и FLUX.1 (12B параметров). Наши результаты показали, что TiM не только превосходит эти модели в тех же условиях, но и достигает высокого качества результатов при более низком числе шагов. Например, TiM достигла того же уровня качества, что и SD3.5, но с значительно меньшим количеством параметров. Это показывает, что модель может эффективно строить результаты с монотонным повышением качества при увеличении числа шагов. ## Значимость Мы применили нашу модель в различных сценариях, включая генерирование изображений в высоких разрешениях (до 4096x4096 пикселей). Эффективность модели при генерации высококачественных изображений, даже при небольшом числе шагов, делает ее привлекательной для применения в реальных ситуациях. Модель также показала заметный потенциал для улучшения оптимизации использования ресурсов в генерировании изображений, что может привести к значительному экономическому эффекту. ## Выводы Мы представили Transition Models (TiM), которые предлагают новый подход к генерированию моделей, который адресует проблемы баланса качества и эффективности в генерировании моделей. Наши результаты показывают, что модель может достигать высокого кач

Abstract

A fundamental dilemma in generative modeling persists: iterative diffusion models achieve outstanding fidelity, but at a significant computational cost, while efficient few-step alternatives are constrained by a hard quality ceiling. This conflict between generation steps and output quality arises from restrictive training objectives that focus exclusively on either infinitesimal dynamics (PF-ODEs) or direct endpoint prediction. We address this challenge by introducing an exact, continuous-time dynamics equation that analytically defines state transitions across any finite time interval. This leads to a novel generative paradigm, Transition Models (TiM), which adapt to arbitrary-step transitions, seamlessly traversing the generative trajectory from single leaps to fine-grained refinement with more steps. Despite having only 865M parameters, TiM achieves state-of-the-art performance, surpassing leading models such as SD3.5 (8B parameters) and FLUX.1 (12B parameters) across all evaluated step counts. Importantly, unlike previous few-step generators, TiM demonstrates monotonic quality improvement as the sampling budget increases. Additionally, when employing our native-resolution strategy, TiM delivers exceptional fidelity at resolutions up to 4096x4096.

Ссылки и действия