The Cosine Schedule is Fisher-Rao-Optimal for Masked Discrete Diffusion Models

2508.04884v1 stat.ML, cs.LG 2025-08-09
Авторы:

Leo Zhang

Резюме на русском

Маскованные дискретные диффузионные модели (Masked Discrete Diffusion Models, MDDM) являются мощным инструментом для работы с дискретными данными. Одним из ключевых аспектов их эффективного использования является выбор оптимального способа дискретизации при выводе. В статье "The Cosine Schedule is Fisher-Rao-Optimal for Masked Discrete Diffusion Models" автор рассматривает проблему оптимального выбора схемы дискретизации, основываясь на геометрии информации Fisher-Rao. На основе анализа автор показывает, что оптимальной схемой является популярный **cosine schedule**, который уже используется в практике. Это вывод не только подтверждает ценность уже имеющихся практических решений, но и дает понимание заслуг этой схемы с точки зрения теории. Результаты статьи полезны для развития методологии диффузионных моделей и их применения в различных задачах машинного обучения.

Abstract

In this work, we study the problem of choosing the discretisation schedule for sampling from masked discrete diffusion models in terms of the information geometry of the induced probability path. Specifically, we show that the optimal schedule under the Fisher-Rao geometry recovers the popularly-used cosine schedule.

Ссылки и действия