DELTA-Code: How Does RL Unlock and Transfer New Programming Algorithms in LLMs?
2509.21016v1
cs.LG, cs.CL
2025-09-27
Авторы:
Yiyou Sun, Yuhan Cao, Pohao Huang, Haoyue Bai, Hannaneh Hajishirzi, Nouha Dziri, Dawn Song
Резюме на русском
## Контекст
В последние годы становится все яснее, что глубоко обученные лингвистические модели (LLMs) могут очень эффективно решать задачи, связанные с кодированием, но вопрос о возможности их приобретения и трансформации новых алгоритмических стратегий остается открытым. Особенно важным является выяснить, могут ли эти модели, используя реинфорсмент изучения (RL), решать проблемы, в которых другие модели остаются без ответов, и как эти новые навыки будут переходить на новые, неизвестные ситуации. Этот вопрос лежит в основе DELTA-Code--Distributional Evaluation of Learnability and Transferrability in Algorithmic Coding, который мы предлагаем в качестве нового бенчмарка для исследований в этой области.
## Метод
DELTA-Code, как инструмент для оценки подхода RL, представляет собой контролируемую модель, нацеленную на изучение мотивации и возможности получения новых алгоритмических навыков. Этот подход использует моделирование синтетических задач, основываясь на шаблонах, которые позволяют отделить проблему от решения. Основное внимание уделяется двум ключевым аспектам: "learnability" (может ли LLM, используя RL, решить задачи, на которых предыдущие модели показали себя неэффективно?) и "transferrability" (могут ли эти навыки быть переданы на новые, неизвестные проблемы?). DELTA-Code также включает в себя плановый тепловой запуск, технологии реплая и курсивное обучение, которые предназначены для обеспечения эффективного обучения в новых условиях.
## Результаты
Наши эксперименты показали, что модели, обученные с помощью RL, могут решить задачи, которые были ранее затруднительными. Особенно интересен "grokking phase transition", когда, после продолжительного периода с близким к нулю вознаграждением, модель неожиданно достигает высокой точности. Исследование показало, что RL может привести к значительным улучшениям в решении задач, особенно при использовании технологии стимулирования, курсивного обучения и реплая. Однако на проблемы, требующие трансформации стратегий, модели по-прежнему сталкиваются с ограничениями.
## Значимость
Результаты DELTA-Code могут быть применены в различных областях, где требуется новая алгоритмическая модель, например, в программировании, кодировании задач и генерации кода. Этот подход предлагает новые возможности для расширения способностей LLMs, особенно в области трансформации и перекрестного переиспользования навыков. Эти достижения могут положительно сказаться на развитии ИИ в целом, позволяя разработчикам расширить границы текущих возможностей моделей.
## Выводы
Наша работа показывает, что RL может быть эффективным инструментом для приобретения новых алгоритмических навыков. DELTA-Code также
Abstract
It remains an open question whether LLMs can acquire or generalize genuinely
new reasoning strategies, beyond the sharpened skills encoded in their
parameters during pre-training or post-training. To attempt to answer this
debate, we introduce DELTA-Code--Distributional Evaluation of Learnability and
Transferrability in Algorithmic Coding, a controlled benchmark of synthetic
coding problem families designed to probe two fundamental aspects: learnability
-- can LLMs, through reinforcement learning (RL), solve problem families where
pretrained models exhibit failure with large enough attempts (pass@K=0)? --and
transferrability -- if learnability happens, can such skills transfer
systematically to out-of-distribution (OOD) test sets? Unlike prior public
coding datasets, DELTA isolates reasoning skills through templated problem
generators and introduces fully OOD problem families that demand novel
strategies rather than tool invocation or memorized patterns. Our experiments
reveal a striking grokking phase transition: after an extended period with
near-zero reward, RL-trained models abruptly climb to near-perfect accuracy. To
enable learnability on previously unsolvable problem families, we explore key
training ingredients such as staged warm-up with dense rewards, experience
replay, curriculum training, and verification-in-the-loop. Beyond learnability,
we use DELTA to evaluate transferability or generalization along exploratory,
compositional, and transformative axes, as well as cross-family transfer.
Results show solid gains within families and for recomposed skills, but
persistent weaknesses in transformative cases. DELTA thus offers a clean
testbed for probing the limits of RL-driven reasoning and for understanding how
models can move beyond existing priors to acquire new algorithmic skills.
Ссылки и действия
Дополнительные ресурсы: