Beyond Autoregression: An Empirical Study of Diffusion Large Language Models for Code Generation

2509.11252v1 cs.SE, cs.AI 2025-09-17

Авторы:

Chengze li, Yitong Zhang, Jia Li, Liyi Cai, Ge Li

Резюме на русском

## Контекст Создание кода — важный аспект развития программного обеспечения, способствующий эффективности разработки и качеству конечных продуктов. Одним из ключевых подходов к автоматизации этого процесса являются генерирующие модели языков (LLMs). Основным подходом для LLMs в коде-генерации является авторегрессионная генерация, где модель генерирует токен за током в порядке слева направо. Однако эта модель имеет ограничения: она неэффективна в практических задачах и не учитывает нелинейный характер программирования, когда программист вносит изменения в результат непосредственно в процессе работы. Это приводит к потребности в развитии более гибких и эффективных подходов. В этом контексте набирают популярность различные альтернативные подходы, в том числе и diffusion LLMs. Эти модели предлагают возможность многотокеновой генерации и гибкого выбора порядка генерации, что может решить некоторые проблемы авторегрессионных моделей. Однако, несмотря на этот потенциал, есть недостаток в научных исследованиях, которые бы подробно изучили работу diffusion LLMs в контексте кодовой генерации. ## Метод Для получения подробных результатов, авторы провели эмпирическое исследование, используя 9 представительных моделей diffusion LLMs. Они проводили эксперименты на 4 различных наборах данных, которые широко применяются в задачах кодовой генерации. Эксперименты охватили различные аспекты эффективности и эффективности работы генерирующих моделей, включая производительность, качество результатов и конкретные факторы, которые могут способствовать или мешать эффективности моделей. Были проведены тесты на производительность в разных ситуациях, включая генерацию кода различных длин и работу с нелинейной структурой программ. ## Результаты Исследование определило, что diffusion LLMs примерно эквивалентны параллельным autoregressive LLMs в тех же размерах, но имеют значительные преимущества в контексте производительности и гибкости. Они показали лучшую длинную генерацию, что особо важно для сложных кодовых структур. Также было выявлено, что diffusion LLMs могут эффективнее работать с различными размерами данных, благодаря своей гибкости в порядке генерации. Были выявлены факторы, влияющие на то, насколько эффективны данные модели в контексте различных задач. ## Значимость Полученные результаты открывают новые горизонты в развитии LLMs для кодовой генерации. Главные преимущества diffusion LLMs заключаются в более высокой эффективности, гибкости и улучшении работы с длинными кодами. Эти модели могут быть применимы в различных областях, включая разработку систем автоматичес

Abstract

LLMs have become the mainstream approaches to code generation. Existing LLMs mainly employ autoregressive generation, i.e. generating code token-by-token from left to right. However, the underlying autoregressive generation has two limitations in code generation. First, autoregressive LLMs only generate a token at each step, showing low efficiency in practice. Second, programming is a non-sequential process involving back-and-forth editing, while autoregressive LLMs only employ the left-to-right generation order. These two intrinsic limitations hinder the further development of LLMs in code generation. Recently, diffusion LLMs have emerged as a promising alternative. Diffusion LLMs address the above limitations with two advances, including multi-token prediction (i.e. generating multiple tokens at each step) and flexible generation order (i.e. flexibly determining which positions to generate tokens). However, there is no systematic study exploring diffusion LLMs in code generation. To bridge the knowledge gap, we present the first empirical study of diffusion LLMs for code generation. Our study involves 9 representative diffusion LLMs and conduct experiments on 4 widely used benchmarks. Based on the results, we summarize the following findings. (1) Existing diffusion LLMs are competitive with autoregressive LLMs with similar sizes. (2) Diffusion LLMs have a stronger length extrapolation ability than autoregressive LLMs and perform better in long code understanding. (3) We explore factors impacting the effectiveness and efficiency of diffusion LLMs, and provide practical guidance. (4) We discuss several promising further directions to improve diffusion LLMs on code generation. We open-source all source code, data, and results to facilitate the following research. The code is publicly available at https://github.com/zhangyitonggg/dllm4code.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Beyond Autoregression: An Empirical Study of Diffusion Large Language Models for Code Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operatio...

Quantitative Analysis of Technical Debt and Pattern Violation in Large Language ...

MANTRA: a Framework for Multi-stage Adaptive Noise TReAtment During Training

Beyond Greenfield: The D3 Framework for AI-Driven Productivity in Brownfield Eng...

LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reli...

Навигация