Improving Text Style Transfer using Masked Diffusion Language Models with Inference-time Scaling
2508.10995v2
cs.CL, cs.LG
2025-08-19
Авторы:
Tejomay Kishor Padole, Suyash P Awate, Pushpak Bhattacharyya
Резюме на русском
## Контекст
Маскированные диффузионные языковые модели (Masked Diffusion Language Models, MDLMs) - это последняя модель, получившая популярность в генерируемых задачах естественного языка. Их привлекательность возникает из-за простоты обучения и масштабируемости, которые делают их удобными для работы с упрощенными моделями языковых моделей. Работает MDLM путем постепенного уменьшения шума в данных, что позволяет строить более точные языковые модели. Несмотря на то, что диффузионные модели показали себя во время обучения, они до сих пор сталкиваются с проблемами в генерации текста, такими как низкая точность генерации и проблемы с избыточностью. Несмотря на эти проблемы, диффузионные модели по-прежнему являются выдающимся подходом к генерации текстов, особенно в случае использования инференце-тайм скалирования. Мы предлагаем простой подход для повышения качества генерации текстов, используя инференце-тайм скалирование, что позволяет лучше подобрать лучшие генерации выходных данных. Мы покажем, что наши вновь введенные методы позволяют генерировать высококачественные тексты и превосходят существующие модели, в том числе авторегрессионные.
## Метод
Мы предлагаем метод инференце-тайм скалирования, использующий гибкое скалирование с различными весами в генерации текста. Наша модель постранично создает тексты, используя диффузионную модель, а затем применять гибкую оценку каждого слоя. Мы также используем внешний верификатор, чтобы улучшить генерацию на каждом шагу генерации. В основе нашего подхода лежит гибкое скалирование верификатора, которое позволяет подбирать лучшие варианты текста во время реализации. Мы используем предварительно обученные модели для верификации генерации, что позволяет получить высококачественные результаты в тексте. Метод был протестирован на широкоупотребительных задачах генерации текста, в том числе для текстового стилевого перевода.
## Результаты
Мы провели ряд экспериментов, чтобы показать эффективность нашего подхода. Мы использовали стандартные данные для текстового стилевого перевода, включая данные из стандартных тасков генерации текста. Мы сравнили результаты с основными методами, включая авторегрессионную модель. Наши результаты показали, что наша модель превосходит авторегрессионные модели в качестве генерации текста и позволяет получить высококачественные результаты в текстовом стилевом переводе. Мы также показали, что использование внешнего верификатора позволяет улучшить качество генерации, даже при использовании простых верификаторов, таких как предварительно обученные
Abstract
Masked diffusion language models (MDMs) have recently gained traction as a
viable generative framework for natural language. This can be attributed to its
scalability and ease of training compared to other diffusion model paradigms
for discrete data, establishing itself as the state-of-the-art
non-autoregressive generator for discrete data. Diffusion models, in general,
have shown excellent ability to improve the generation quality by leveraging
inference-time scaling either by increasing the number of denoising steps or by
using external verifiers on top of the outputs of each step to guide the
generation. In this work, we propose a verifier-based inference-time scaling
method that aids in finding a better candidate generation during the denoising
process of the MDM. Our experiments demonstrate the application of MDMs for
standard text-style transfer tasks and establish MDMs as a better alternative
to autoregressive language models. Additionally, we show that a simple
soft-value-based verifier setup for MDMs using off-the-shelf pre-trained
embedding models leads to significant gains in generation quality even when
used on top of typical classifier-free guidance setups in the existing
literature.
Ссылки и действия
Дополнительные ресурсы: