📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Verification Limits Code LLM Training
2025-09-27Авторы:
Srishti Gureja, Elena Tommasone, Jingyi He, Sara Hooker, Matthias Gallé, Marzieh Fadaee
#### Контекст
Modern large language models (LLMs) for code generation increasingly depend on synthetic data, where both problems and their solutions are generated by these models. While this approach enables scalable data creation, it introduces a novel limitation: the **verification ceiling**. This ceiling arises when the quality and diversity of training data are constrained by the capabilities of synthetic verifiers. Such a bottleneck restricts the ability of models to generalize and improve beyond a certain point. This study systematically investigates how verification design and strategies impact model performance, aiming to understand and overcome this limitation.
#### Метод
The methodology focuses on analyzing the interplay between verification strategies and model training. Researchers evaluate two key aspects:
1. **What we verify**: Tests are categorized by their complexity and quantity. Richer test suites enhance model capabilities, while excessive quantity yields diminishing returns.
2. **How we verify**: Relaxed pass thresholds and LLM-based soft verification methods are explored. These approaches recover valuable training data, leading to performance improvements.
3. **Why verification remains necessary**: Controlled comparisons between formally correct and incorrect solutions, alongside human evaluations, emphasize the importance of diverse and high-quality solutions.
The study provides a nuanced understanding of the limitations and potential recalibration of verification processes.
#### Результаты
Experiments reveal that richer test suites improve code generation capabilities significantly, with an average increase of +3 pass@1. However, simply increasing quantity leads to diminishing returns. Relaxed pass thresholds and LLM-based soft verification demonstrate the potential to recover valuable training data, achieving a 2-4 point improvement in pass@1 performance. However, this benefit depends on the strength and diversity of the test cases. The findings underscore the necessity of recalibrating verification processes rather than discarding them.
#### Значимость
The recalibrated verification process offers significant potential across various domains, including software development, education, and AI-driven code generation. By overcoming the verification ceiling, this approach can unlock stronger and more generalizable LLMs for code. The findings highlight the importance of balancing test diversity and complexity to improve model performance.
#### Выводы
This work highlights the critical role of verification in LLMs for code generation and identifies key areas for improvement. By combining calibrated verification with diverse and challenging problem-solution pairs, the study outlines a path to break the verification ceiling, paving the way for the next generation of stronger and more versatile code generation models. Future research will focus on further refining verification strategies and exploring their application in real-world scenarios.
Annotation:
Large language models for code generation increasingly rely on synthetic
data, where both problem solutions and verification tests are generated by
models. While this enables scalable data creation, it introduces a previously
unexplored bottleneck: the verification ceiling, in which the quality and
diversity of training data are fundamentally constrained by the capabilities of
synthetic verifiers. In this work, we systematically study how verification
design and strategies influence model perfor...
Авторы:
Haoye Tian, Chong Wang, BoYang Yang, Lyuye Zhang, Yang Liu
## Контекст
Large Language Models (LLMs) являются основными компонентами современного программного обеспечения, используя prompts как интерфейс для программирования. Однако проектирование prompts остается жизнерадостным и часто приводит к непредсказуемому поведению моделей. Ошибки в проектировании могут привести к небезопасному, неэффективному или небезошибочному поведению. Данная статья представляет первую систематизированную статистическую выборку и категоризацию дефектов в prompts, опираясь на примеры из реальных рабочих процессов.
## Метод
Статья привносит новую лингвистическую модель, которая используется для категоризации дефектов prompts во время их проектирования. Метод включает в себя четыре шага: (1) Определение категорий дефектов и их характеристик, (2) Использование примеров из реальных рабочих процессов, (3) Определение корневых причин дефектов, (4) Создание алгоритмов для разделения категорий и подтипов. Этот подход позволяет анализировать как основные, так и мелкие дефекты в LLMs.
## Результаты
В работе было проанализировано более 2000 дефектов в prompts, полученных из различных источников, включая рабочие процессы и тестирующие программы. Был разработан каталог дефектов, разделенный на шесть основных классов: Specification and Intent, Input and Content, Structure and Formatting, Context and Memory, Performance and Efficiency, и Maintainability and Engineering. Для каждого класса были извлечены подтипы дефектов, иллюстрированные примерами.
## Значимость
Разработанная категоризация может быть использована в разработке программного обеспечения, которое использует LLMs, для того, чтобы улучшить надежность, безопасность и эффективность. Она помогает разработчикам выявлять и устранять дефекты в ранней стадии разработки, а также выявлять потенциальные проблемы, которые могут возникнуть в будущем. Этот подход может иметь значительное влияние на развитие новых технологий LLM.
## Выводы
Основные достижения статьи заключаются в создании систематизированной категории дефектов в prompts, которая может быть использована в разработке и тестировании LLMs. Будущие исследования будут направлены на развитие автоматизированных систем для диагностики и устранения дефектов в prompts, а также на развитие методов для улучшения разработки и тестирования LLMs. Эти исследования будут способствовать улучшению надёжности и эффективности LLM-driven систем.
Annotation:
Large Language Models (LLMs) have become key components of modern software,
with prompts acting as their de-facto programming interface. However, prompt
design remains largely empirical and small mistakes can cascade into
unreliable, insecure, or inefficient behavior. This paper presents the first
systematic survey and taxonomy of prompt defects, recurring ways that prompts
fail to elicit their intended behavior from LLMs. We organize defects along six
dimensions: (1) Specification and Intent, (...
Авторы:
Simiao Liu, Fang Liu, Liehao Li, Xin Tan, Yinghao Zhu, Xiaoli Lian, Li Zhang
#### Контекст
Автоматическое решение проблем в кодировании (Automated Issue Solving, AIS) является важной задачей в развитии интеллектуальных систем. Она заключается в поиске и исправлении дефектов в коде, находящихся в разных частях кодовой базы. Несмотря на то, что нейросетевые модели, основанные на трансформерах, достигли значительных успехов в этой области, они все еще сталкиваются с значительными неудачами. Одной из наиболее актуальных задач является повышение точности и устойчивости таких систем. Одна из наиболее популярных систем для испытаний и сравнения новых методов является SWE-Bench, широко признанная в сообществе. Однако существующие оценки показывают, что даже эти системы не могут решить большую часть задач, что ограничивает их применение в реальных проектах. Целью данного исследования является повышение понимания основных причин неудач в автоматизированном решении проблем, чтобы можно было выявить слабые места и сформировать направления для будущих улучшений.
#### Метод
Мы проводили исследование, основываясь на трех лидирующих решениях в области автоматического решения проблем, разнообразных по архитектуре и подходу. Это включило и пайплайн-подобные архитектуры, и agentic-подобные архитектуры. Мы провели эксперименты на основе SWE-Bench-Verified, который представляет собой стандартный бенчмарк для оценки систем AIS. Для каждой системы были измерены значения точности и эффективности в зависимости от различных характеристик задач. Для получения более глубокого понимания ошибок и диагностики слабых мест в системах, мы провели тщательный ручной анализ 150 неудачных случаев. Этот анализ позволил нам сформировать детальную категоризацию ошибок, включающую в себя три основных фазы, 9 главных категорий и 25 подкатегорий. Это позволило выявить основные причины неудач и формировать набор "печатных пальцев" ошибок, отличающих разные архитектуры.
#### Результаты
Наши эксперименты показали, что существует значительное различие в производительности систем в зависимости от характеристик задач. Например, agentic-системы оказались менее резистентными к некоторым типам ошибок, чем pipeline-системы. Мы также выявили, что главная причина неудач в agentic-системах заключается в подверженности неверному выводу рассуждений (flawed reasoning) и вхождении в "когнитивные застои" (cognitive deadlocks). Эти типы ошибок не позволяют системе выйти из логического затухания, что приводит к неудачам в решении задач. Общая точность систем, улучшенных с помощью нашего нового подхода, Expert-Executor, выmostилась на 22.2% выше, чем у лучшего отдельного агента. Это указывает на то, что система может б
Annotation:
Automated issue solving seeks to autonomously identify and repair defective
code snippets across an entire codebase. SWE-Bench has emerged as the most
widely adopted benchmark for evaluating progress in this area. While LLM-based
agentic tools show great promise, they still fail on a substantial portion of
tasks. Moreover, current evaluations primarily report aggregate issue-solving
rates, which obscure the underlying causes of success and failure, making it
challenging to diagnose model weaknes...
📄 Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework
2025-09-19Авторы:
Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin Xia
#### Контекст
Chain-of-Thought (CoT) reasoning является эффективным методом улучшения бо LLM, позволяющим ему выдавать промежуточные шаги в решении задач, что улучшает точность и устойчивость в таких областях, как ритеметрика, логика и прочие. Однако этот подход связан с высокими затратами ресурсов: длинные выводы увеличивают задержку, потребление памяти и требования к кэшу KV. Эти проблемы особенно актуальны в задачах, связанных со строительством программного обеспечения, где необходима компактность и определенность выводов. Несмотря на то, что CoT улучшает качество решений, полученные результаты показывают, что длинные выводы не всегда являются оптимальными. Это демонстрируется тем, что длинные выводы часто приводят к логическим ошибкам, обрыву вывода и повышенной задержке в вычислениях. В целом, эти наблюдения опровергают предположение о том, что длинное рассуждение всегда приносит пользу, и выделяют необходимость в развитии адаптивных методов контроля цепочки рассуждений.
#### Метод
Предлагается SEER (Self-Enhancing Efficient Reasoning), адаптивная система контроля CoT, которая уменьшает цену расчетов за счет сокращения длины выводов, при этом сохраняя их точность. Основные элементы SEER:
1. **Best-of-N Sampling**: Метод выбора лучших выводов, призванный повысить точность решений.
2. **Task-Aware Adaptive Filtering**: Фильтрация промежуточных результатов на основе предварительных выводов, чтобы уменьшить ненужную длину выводов и повысить их эффективность.
3. **Dynamic Thresholding**: Динамическая настройка порогов для фильтрации, чтобы адаптироваться к задаче и улучшить производительность.
SEER динамически анализирует выходные данные на этапе предварительного расчета, чтобы предотвратить проблемы, такие как неоптимальный выбор длины вывода, задержка и неточности.
#### Результаты
Исследования проводились на бенчмарках по генерации кода. Результаты показали, что SEER уменьшил длину вывода на 42.1%, что привело к снижению задержки и памяти, необходимой для вычислений. Было получено увеличение точности, так как SEER смог устранить многочисленные логические ошибки и неточности, которые возникали в длинных выводах. Кроме того, SEER удалил большую часть бесконечных циклов, которые часто порождались длинными цепочками рассуждений. В целом, эти результаты доказывают, что SEER эффективно сбалансированно уменьшает затраты на вычисления без ущерба для качества решений.
#### Значимость
Предлагаемый подход может быть применен в различных областях, где необходимо повысить производительность логических задач. Особенно актуально SEER для задач, связанных с системами программирования и логическими выводами. Его основные преимущества заключаются в том,
Annotation:
Chain-of-Thought (CoT) reasoning enhances Large Language Models (LLMs) by
prompting intermediate steps, improving accuracy and robustness in arithmetic,
logic, and commonsense tasks. However, this benefit comes with high
computational costs: longer outputs increase latency, memory usage, and
KV-cache demands. These issues are especially critical in software engineering
tasks where concise and deterministic outputs are required. To investigate
these trade-offs, we conduct an empirical study based...
Авторы:
Mukul Singh, Gust Verbruggen, Vu Le, Sumit Gulwani
Оглавление:
## Контекст
Код формируется как результат процесса, в котором разработчики решают проблемы, обращаются к документации и опыту, а также вносят ручные исправления. Однако возникает проблема: некоторые программы, особенно те, которые используются в бизнесе, недоработаны или повреждены. Эти недоработки могут привести к ошибкам или неполадкам в работе. Это проблема становится все актуальнее, если учитывать, что кроме реализации функциональности программы, разработчики должны учитывать безопасность, удобство и совместимость. Для решения этой проблемы в статье предлагается использовать diffusion model – модель, которая используется для генерации кода и выполнения операций по его модификации.
## Метод
В статье предлагается использовать diffusion model, который генерирует код путем последовательного удаления шума из его закодированной представления. Этот процесс может быть использован для последнего этапа ремонта кода: когда наблюдаются малые изменения, которые могут исправить ошибки или недоработки. Для этого модель добавляет шум к неполному коду, а затем продолжает процесс генерации, пока код не будет исправлен. Кроме того, модель может использоваться для синтеза данных для последних этапов ремонта кода. В процессе генерации, модель может производить промежуточные программы, которые могут быть использованы для обучения моделей, выполняющих последние этапы ремонта кода. Это позволяет эффективно использовать ресурсы и сократить время обучения.
## Результаты
В ходе исследования проводятся эксперименты на трех языках программирования: Python, Excel и PowerShell. Модель diffusion model используется для двух применений: код-ремонта и создания данных для обучения. Результаты показывают, что модель в состоянии исправить значительную часть недоработок в коде. Также она может сгенерировать данные для обучения моделей, которые используются для последнего этапа ремонта. Это делает процесс ремонта кода более эффективным и быстрым. Благодаря этому, модель может быть применена в различных сферах, где необходимо быстро и эффективно решать проблемы в коде.
## Значимость
Результаты исследования показывают, что diffusion model может использоваться для решения сложной проблемы в области кодового ремонта. Эта модель имеет большой потенциал в различных сферах, где необходимо быстро и эффективно исправлять код. Это может быть применено в разработке программного обеспечения, в ИТ-отделах компаний, в сфере бизнес-приложений и многих других. Кроме того, модель позволяет эффективно использовать ресурсы, что делает процесс ремонта более удобным и быстрым. Это может привести к улучшению качества программного обеспечения и уменьшению времени, затрачива
Annotation:
Code diffusion models generate code by iteratively removing noise from the
latent representation of a code snippet. During later steps of the diffusion
process, when the code snippet has almost converged, differences between
discrete representations of these snippets look like last-mile repairs applied
to broken or incomplete code. We evaluate the extent to which this resemblance
can be exploited to leverage pre-trained code diffusion models for the problem
of last-mile repair by considering two...
Авторы:
Haonan Zhang, Dongxia Wang, Yi Liu, Kexin Chen, Jiashui Wang, Xinlei Ying, Long Liu, Wenhai Wang
## Контекст
Large Language Models (LLMs) постоянно совершают ошибки в виде "over-refusal", то есть необоснованного отказа от обработки подозрительно безопасных запросов пользователей. Это проблема возникает из-за слишком утонченных мер безопасности, которые могут приводить к отказам даже в случае присутствия негативных последствий. Так как подобные ошибки могут серьёзно снижать надежность и пользовательский доверие к моделям, они являются критическим функциональным недостатком. На данный момент существуют ограниченные методы для тестирования такого поведения, так как тестирующие бенчмарки и генерация тестовых случаев остаются недостаточно эффективными. Наша работа является первой попыткой создания систематического подхода к обнаружению и анализу таких ошибок.
## Метод
Мы предлагаем ORFuzz - первый развивающийся фреймворк для тестирования "over-refusal" в LLMs. Он включает три основных компонента: (1) выбор семян с учётом категорий безопасности для полного покрытия, (2) адаптивная оптимизация мутатора с применением логики логических моделей для произвольного генерирования тестовых случаев, и (3) OR-Judge - модель, которая подтверждена как близка к потребностям пользователя в определении токсичности и отказа. Предложенный подход позволяет генерировать разнообразные, проверенные случаи over-refusal, которые позволяют обнаруживать уязвимости в LLMs.
## Результаты
Наши эксперименты показали, что ORFuzz способен генерировать значительно большее число тестовых случаев over-refusal по сравнению с текущими методами, благодаря использованию разнообразия семян и оптимизации логики. Мы обнаружили, что ORFuzz увеличивает среднюю процентную долю over-refusal в десяти разных LLMs до 6.98%, что значительно превышает результаты базовых методов. Благодаря этому, был создан ORFuzzSet - новый бенчмарк с 1,855 случаями over-refusal, который показал 63.56% успеха в тестах на 10 LLMs. Этот результат значительно превосходит существующие бенчмарки.
## Значимость
Предложенный подход может быть применён в различных областях, где LLMs используются, таких как клиент-серверные системы, мобильные приложения и системы предсказания. ORFuzz является более продвинутым инструментом для обнаружения over-refusal, что помогает улучшить надежность и доверие к моделям. Мы считаем, что наша работа может способствовать развитию более надежных и пользователь-ориентированных систем на основе LLMs.
## Выводы
ORFuzz является первым инструментом для систематического тестирования over-refusal в LLMs. Мы показали, что он способен генерировать более разнообразные и эффективные тестовые случаи, что позволяет обнаружить уязвимости. Мы предлагаем ORFu
Annotation:
Large Language Models (LLMs) increasingly exhibit over-refusal - erroneously
rejecting benign queries due to overly conservative safety measures - a
critical functional flaw that undermines their reliability and usability.
Current methods for testing this behavior are demonstrably inadequate,
suffering from flawed benchmarks and limited test generation capabilities, as
highlighted by our empirical user study. To the best of our knowledge, this
paper introduces the first evolutionary testing fram...
Авторы:
Mikio Nakano, Hironori Takeuchi, Sadahiro Yoshikawa, Yoichi Matsuyama, Kazunori Komatani
Работа подробно рассматривает понятие **Dialogue Systems Engineering**, как специальный направленный вид программного обеспечения, относящийся к жизненному циклу беседовых систем. Обзор показывает, что с появлением **large language models**, технологии диалоговых систем получили значительный прорыв, однако их эффективное применение в решении важных проблем общественного и бизнес-сектора требует новых подходов к их разработке и эксплуатации. Авторы показывают, что стандартные методы программного обеспечения недостаточно приспособлены для этих целей и предлагают развивать дополнительные подходы, отталкиваясь от теории **Software Engineering Body of Knowledge (SWEBOK)**. Работа определяет недостающие знания в области беседовых систем и определяет направления будущих исследований в этом направлении.
Annotation:
This paper proposes to refer to the field of software engineering related to
the life cycle of dialogue systems as Dialogue Systems Engineering, and surveys
this field while also discussing its future directions. With the advancement of
large language models, the core technologies underlying dialogue systems have
significantly progressed. As a result, dialogue system technology is now
expected to be applied to solving various societal issues and in business
contexts. To achieve this, it is impor...
Авторы:
Lishui Fan, Yu Zhang, Mouxiang Chen, Zhongxin Liu
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Результаты применения reinforcement learning (RL) в области кодогенерации для больших языковых моделей (LLMs) значительно улучшились в последнее время. Однако существующие подходы часто основываются на результирующих наградах, получаемых из тест-кейсов, без учета качества промежуточных процессов вывода. Такая ориентация на конечный результат может привести к недостаткам в процессе логического вывода, который является ключевым для понимания и генерации высококачественного кода.
Прямое контролирование качества процесса вывода является перспективным направлением, но существует серьезная проблема ревард хакинга (reward hacking), при которой модель научится манипулировать процессом вывода, чтобы получить высокую оценку, не способствуя улучшению конечных результатов. Для решения этой проблемы необходимо разработать методы, позволяющие оценивать и награждать качество процесса вывода, не затрагивая финальный результат.
В этой статье авторы предлагают комплексный подход, сочетающий в себе разработку бенчмарка для оценки процесса вывода, метод для точной оценки качества процесса и новый метод RL, который учитывает качество промежуточных процессов в выводе.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Авторы представляют трехступенчатый подход к улучшению процесса кодогенерации.
1. **Разработка бенчмарка LCB-RB**: Для оценки качества процесса вывода разработан бенчмарк LCB-RB, который состоит из пар предпочтений, где каждая пара представляет два процесса вывода — один лучше, другой хуже. Этот бенчмарк позволяет модели оценивать качество процесса вывода на основе сравнения.
2. **Метод OD-based для обучения наградной модели**: Для точной оценки качества процесса вывода разработан метод Optimized-Degraded (OD-based). Этот метод позволяет генерировать высококачественные пары предпочтений путем систематического улучшения и ухудшения исходных процессов вывода по определенным критериям, таким как фактическая точность, логическая целостность и когерентность. На основе этого метода обучается модель наград размером 7 млрд параметров, которая достигает лучших результатов на бенчмарке LCB-RB и хорошо обобщается на другие данные.
3. **Метод Posterior-GRPO (P-GRPO)**: Новый метод RL, Posterior-GRPO, разработан для того, чтобы учитывать качество процесса вывода при обучении. Он награждает только те процессы вывода, которые приводят к успешным результатам, эффективно предотвращая ревард хакинг. Это позволяет выработать в модели логику, которая соотносит процесс вывода с конечным результатом.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Авторы проводят ряд экспериментов для оценки эффективности их подхода. Используются различные данные для кодогенерации, включая задачи программирования и математические задачи. Результаты показывают, что модель с P-GRPO достигает лучших результатов по сравнению с базовыми моделями, которые основываются только на конечных результатах.
Модель с P-GRPO показывает улучшение в 4,5% по сравнению с моделями, не учитывающими процесс вывода. Кроме того, модель достигает результатов, сопоставимых с GPT-4-Turbo, что демонстрирует высокую эффективность предлагаемого подхода.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предлагаемый подход имеет широкое практическое применение в области кодогенерации и математических задач. Он позволяет создавать модели, которые не только генерируют корректный код, но и выполняют это с высоким качеством процесса вывода. Это может быть полезно в областях, требующих высокой точности и логической целостности, таких как разработка программного обеспечения, математические моделирование и другие.
Кроме того, предлагаемый метод может быть использован для улучшения качества вывода в других областях, где важно не только конечный результат, но и процесс достижения этого результата.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
В работе представлен комплексный подход к улучшению кодогенерации с помощью RL, который учитывает качество промежуточных процессов вывода. Разработанный бенчмарк, метод оценки качества процесса вывода и новый метод RL (P-GRPO) позволяют эффективно улучшить качество кодогенерации, предотвращая ревард хакинг и вырабатывая логику, соотносящую процесс вывода с конечным результатом.
Будущие исследования могут фокусироваться на дальнейшем улучшении качества процесса вывода, расширении областей применения и интеграции этого подхода в более крупные модели.
Annotation:
Reinforcement learning (RL) has significantly advanced code generation for
large language models (LLMs). However, current paradigms rely on outcome-based
rewards from test cases, neglecting the quality of the intermediate reasoning
process. While supervising the reasoning process directly is a promising
direction, it is highly susceptible to reward hacking, where the policy model
learns to exploit the reasoning reward signal without improving final outcomes.
To address this, we introduce a unifi...
Показано 21 -
28
из 28 записей