The Cosine Schedule is Fisher-Rao-Optimal for Masked Discrete Diffusion Models
2508.04884v1
stat.ML, cs.LG
2025-08-09
Авторы:
Leo Zhang
Резюме на русском
Маскованные дискретные диффузионные модели (Masked Discrete Diffusion Models, MDDM) являются мощным инструментом для работы с дискретными данными. Одним из ключевых аспектов их эффективного использования является выбор оптимального способа дискретизации при выводе. В статье "The Cosine Schedule is Fisher-Rao-Optimal for Masked Discrete Diffusion Models" автор рассматривает проблему оптимального выбора схемы дискретизации, основываясь на геометрии информации Fisher-Rao. На основе анализа автор показывает, что оптимальной схемой является популярный **cosine schedule**, который уже используется в практике. Это вывод не только подтверждает ценность уже имеющихся практических решений, но и дает понимание заслуг этой схемы с точки зрения теории. Результаты статьи полезны для развития методологии диффузионных моделей и их применения в различных задачах машинного обучения.
Abstract
In this work, we study the problem of choosing the discretisation schedule
for sampling from masked discrete diffusion models in terms of the information
geometry of the induced probability path. Specifically, we show that the
optimal schedule under the Fisher-Rao geometry recovers the popularly-used
cosine schedule.
Ссылки и действия
Дополнительные ресурсы: