Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models

2508.09138v1 cs.CL, cs.AI 2025-08-14
Авторы:

Wen Wang, Bozhen Fang, Chenchen Jing, Yongliang Shen, Yangyi Shen, Qiuyu Wang, Hao Ouyang, Hao Chen, Chunhua Shen

Резюме на русском

## Контекст В последние годы текстовое понимание стало одной из основных областей искусственного интеллекта, с предложением различных моделей, таких как трансформеры, GPT и другие. Одним из новых направлений является развитие **diffusion large language models (dLLMs)**, которые основываются на методе размывания (diffusion) для генерации текста. Несмотря на прогрессы в этой области, существуют проблемы с точностью и стабильностью генерации. Например, существуют ситуации, когда модель в процессе постепенного улучшения ответа (denoising) перезаписывает правильный ответ на неправильный, из-за чего в итоге может быть получен неверный результат. Эта проблема известна как **temporal oscillation**. Цель нашего исследования заключается в изучении и использовании временных динамик в dLLMs для улучшения точности и стабильности генерируемого текста. ## Метод В нашем методе используются две основные компоненты: **Temporal Self-Consistency Voting** и **Temporal Consistency Reinforcement**. 1. **Temporal Self-Consistency Voting**: Это стратегия тестового времени, которая использует все промежуточные генерации модели в процессе размывания для голосования за наиболее вероятный ответ. Оно не требует дополнительных тренировочных данных и позволяет определить самый стабильный ответ в процессе работы модели. 2. **Temporal Consistency Reinforcement**: Это пост-тренировочный подход, который использует **Temporal Semantic Entropy (TSE)** — меру степени стабильности семантического содержания промежуточных генераций. Наша модель получает реWARD на основе этой меры, что позволяет ей сфокусироваться на более стабильных и точных результатах. Основной идеей заключается в том, что в промежуточных шагах размывания модели dLLM может давать правильный ответ, но позже этот ответ перезаписывается. Мы используем эти промежуточные генерации для улучшения конечного результата. ## Результаты Мы проверили нашу модель на нескольких бенчмарк-датасетах, включая GSM8K, MATH500, SVAMP и Countdown. Использовались предобученные модели dLLM, в том числе Llama-2. Наш подход показал существенные улучшения в точности: - **Средний прирост точности** на Countdown: 24.7% при использовании только TSE-реWARD. - **Абсолютные приросты точности** на других бенчмарк-датасетах: - GSM8K: +2.0% - MATH500: +4.3% - SVAMP: +6.6% - Countdown: +25.3% Эти результаты показывают, что наш подход эффективно использует временные динамики dLLM для улучшения результатов. ## Значимость Мы открыли новый подход к использованию временных динамик в dLLMs, который может применяться в различных областях, таких как: - Автоматизация процессов решения математических задач (например, для учебных целей). - Генерация текста в реальном времени, где необходима высокая точность и стабильность

Abstract

Diffusion large language models (dLLMs) generate text through iterative denoising, yet current decoding strategies discard rich intermediate predictions in favor of the final output. Our work here reveals a critical phenomenon, temporal oscillation, where correct answers often emerge in the middle process, but are overwritten in later denoising steps. To address this issue, we introduce two complementary methods that exploit temporal consistency: 1) Temporal Self-Consistency Voting, a training-free, test-time decoding strategy that aggregates predictions across denoising steps to select the most consistent output; and 2) a post-training method termed Temporal Consistency Reinforcement, which uses Temporal Semantic Entropy (TSE), a measure of semantic stability across intermediate predictions, as a reward signal to encourage stable generations. Empirical results across multiple benchmarks demonstrate the effectiveness of our approach. Using the negative TSE reward alone, we observe a remarkable average improvement of 24.7% on the Countdown dataset over an existing dLLM. Combined with the accuracy reward, we achieve absolute gains of 2.0% on GSM8K, 4.3% on MATH500, 6.6% on SVAMP, and 25.3% on Countdown, respectively. Our findings underscore the untapped potential of temporal dynamics in dLLMs and offer two simple yet effective tools to harness them.

Ссылки и действия