📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Generating Verifiable CoT from Execution-Traces

2025-12-02

Авторы:

Shailja Thakur, Vaibhav Saxena, Rohan Kulkarni, Shivdeep Singh, Parameswaran Selvam, Hima Patel, Hiroshi Kanayama

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Teaching language models to reason about code execution remains a fundamental challenge. While Chain-of-Thought (CoT) prompting has shown promise, current synthetic training data suffers from a critical weakness: the reasoning steps are often plausible-sounding explanations generated by teacher models, not verifiable accounts of what the code actually does. This creates a troubling failure mode where models learn to mimic superficially convincing but logically flawed reasoning patterns. We add...

ID: 2512.00127v1 cs.SE, cs.AI, cs.PL

arXiv PDF

📄 SLMFix: Leveraging Small Language Models for Error Fixing with Reinforcement Learning

2025-11-26

Авторы:

David Jiahao Fu, Aryan Gupta, Aaron Councilman, David Grove, Yu-Xiong Wang, Vikram Adve

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advancements in large language models (LLMs) have shown very impressive capabilities in code generation across many programming languages. However, even state-of-the-art LLMs generate programs that contains syntactic errors and fail to complete the given tasks, especially for low-resource programming languages (LRPLs). In addition, high training cost makes finetuning LLMs unaffordable with constrained computational resources, further undermining the effectiveness of LLMs for code generati...

ID: 2511.19422v1 cs.SE, cs.AI, cs.PL

arXiv PDF

📄 EnvTrace: Simulation-Based Semantic Evaluation of LLM Code via Execution Trace Alignment -- Demonstrated at Synchrotron Beamlines

2025-11-15

Авторы:

Noah van der Vleuten, Anthony Flores, Shray Mathur, Max Rakitin, Thomas Hopkins, Kevin G. Yager, Esther H. R. Tsai

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Evaluating large language models (LLMs) for instrument control requires methods that go beyond standard, stateless algorithmic benchmarks, since the behavior of physical systems cannot be fully captured by unit tests alone. Here we introduce EnvTrace, a simulation-based method that evaluates execution traces to assess semantic code equivalence. EnvTrace is demonstrated with a beamline control-logic digital twin to facilitate the evaluation of instrument control code, with the digital twin itself...

ID: 2511.09964v1 cs.SE, cs.AI, cs.PL

arXiv PDF

📄 Beyond Postconditions: Can Large Language Models infer Formal Contracts for Automatic Software Verification?

2025-10-16

Авторы:

Cedric Richter, Heike Wehrheim

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Automatic software verifiers have become increasingly effective at the task of checking software against (formal) specifications. Yet, their adoption in practice has been hampered by the lack of such specifications in real world code. Large Language Models (LLMs) have shown promise in inferring formal postconditions from natural language hints embedded in code such as function names, comments or documentation. Using the generated postconditions as specifications in a subsequent verification, how...

ID: 2510.12702v1 cs.SE, cs.AI, cs.PL

arXiv PDF

📄 Automating Modelica Module Generation Using Large Language Models: A Case Study on Building Control Description Language

2025-09-20

Авторы:

Hanlong Wan, Xing Lu, Yan Chen, Karthik Devaprasad, Laura Hinkle

## Контекст Развитие динамических энергетических систем и систем управления требует высокоточных моделей для проектирования и тестирования стратегий управления, включая супервизорные и резильентные по отношению к неисправностям. **Modelica** широко применяется в этой области, так как это универсальный язык, основанный на математических уравнениях. Однако разработка модулей управления в Modelica требует больших затрат времени и специализированных знаний. Это становится особенно актуально при работе с моделями управления в системах системных управления зданий (Building Control Description Language, BCDL). В данном исследовании рассматривается возможность использования **large language models (LLMs)** для автоматизации генерации модулей управления в BCDL в рамках Modelica Library. Целью подхода является уменьшение времени разработки и упрощение процесса для специалистов. ## Метод Разработанная методология основывается на использовании **LLMs** стандартными **prompt-сценариями** и квалифицированным **library-aware grounding** (учет спецификации внутренних характеристик Modelica Library). Далее, для проверки кодов, генерируемых LLMs, разработана реализация **automated compilation** с использованием **OpenModelica**, и система **human in the loop** для оценки результатов. Использованы данные из 4 базовых логических задач (And, Or, Not, Switch) и 5 контрольных модулей (например, включение/выключение холодильника, регулировка вентилей, управление шахтами вентиляции). Этапы работы включают создание прототипов моделей, их автоматическую компиляцию и оценку результатов. ## Результаты **GPT-4o** в zero-shot режиме не сумел генерировать работающий код Modelica. **Claude Sonnet 4**, с использованием созданных специально структурированных процессов, достиг в **basic logic blocks** успеха в 100%, а в задачах управления модулями - **83%**. В результатах, не удалось выполнить, инженеры уделяли усредненно 1-8 часов на устранение ошибок. Ошибки в выборе модулей (например, And вместо Or) были частыми при использовании **retrieval-augmented generation**, тогда как **hard rule search strategy** позволила избежать таких неточностей. Кроме того, система **human evaluation** показала более высокую точность по сравнению с **AI-based evaluation**, поскольку текущие LLMs не могут анализировать результаты симуляций или проверять корректность поведения системы. Несмотря на это, автоматизированный подход с **LLM-поддержкой** уменьшил среднее время разработки модулей с 10-20 часов до 4-6 часов, что составляет 40-60% экономии времени. ## Значимость Логические модели, сгенерированные с помощью LLMs, могут применяться в сферах проектирования управляемых зданий, а также для моделирования и симуляции энергетических систем. Этот подход позволил существенно сократить время разработки моделей управления,

Annotation:

Dynamic energy systems and controls require advanced modeling frameworks to design and test supervisory and fault tolerant strategies. Modelica is a widely used equation based language, but developing control modules is labor intensive and requires specialized expertise. This paper examines the use of large language models (LLMs) to automate the generation of Control Description Language modules in the Building Modelica Library as a case study. We developed a structured workflow that combines st...

ID: 2509.14623v1 cs.SE, cs.AI, cs.PL, cs.SY, eess.SY

arXiv PDF

📄 What Were You Thinking? An LLM-Driven Large-Scale Study of Refactoring Motivations in Open-Source Projects

2025-09-11

Авторы:

Mikel Robredo, Matteo Esposito, Fabio Palomba, Rafael Peñaloza, Valentina Lenarduzzi

## Контекст Refactoring — процесс улучшения кода без изменения его внешнего поведения — является важной практикой для повышения качества программного обеспечения. Однако его применение связано с высокими затратами времени и ресурсов. Одним из основных вопросов является понимание, почему разработчики проводят refactoring, и какие метрики могут быть эффективными для оценки этих мотиваций. Это понимание может помочь улучшить использование refactoring в практических задачах и сделать его более эффективным. ## Метод Для исследования мотиваций разработчиков во время refactoring был проведен широкомасштабный анализ данных версий управления кодом с использованием Large Language Models (LLMs). Эти модели использовались для определения основных причин refactoring, а результаты были сравнены с мотивациями, предлагаемыми в современной литературе. Также были использованы различные метрики, отражающие качество кода и его читаемость, для оценки их влияния на мотивации. ## Результаты LLMs показали высокую точность в 80% случаев, согласовываясь с мотивациями, известными из литературы в 47% случаев. Они также добавили детальные пояснения к 22% мотиваций, основываясь на сигнатах, версиях, комментариях и других данных из version control. Основные мотивации включали в себя упрощение кода, повышение читаемости и улучшение структуры. Однако метрики, отражающие качество кода и читаемость, показали слабую корреляцию с мотивациями разработчиков. ## Значимость Полученные результаты могут быть применены в различных областях, таких как анализ качества кода, автоматизированные инструменты для поддержки refactoring и системы мониторинга. Использование LLMs для понимания мотиваций может улучшить возможности для решения проблем принятия решений в коде. Более того, LLM-driven гибридные подходы, сочетающие статистические метрики и локализованные пояснения, могут помочь более систематично оптимизировать refactoring и выравнивать короткосрочные улучшения с длительными целями архитектуры. ## Выводы Результаты исследования показали, что LLM-based модели эффективно идентифицируют мотивации на уровне синтаксиса и семантики кода, но сталкиваются с трудностями при понимании архитектурных мотиваций. Будущие исследования будут сконцентрированы на улучшении моделей для повышения точности в архитектурных задачах и на интеграции LLMs с кодовыми метриками для создания более сильных инструментов для принятия рефакторинг-решений.

Annotation:

Context. Code refactoring improves software quality without changing external behavior. Despite its advantages, its benefits are hindered by the considerable cost of time, resources, and continuous effort it demands. Aim. Understanding why developers refactor, and which metrics capture these motivations, may support wider and more effective use of refactoring in practice. Method. We performed a large-scale empirical study to analyze developers refactoring activity, leveraging Large Language Mode...

ID: 2509.07763v1 cs.SE, cs.AI, cs.PL

arXiv PDF

📄 Boosting Skeleton-Driven SMT Solver Fuzzing by Leveraging LLM to Produce Formula Generators

2025-08-30

Авторы:

Maolin Sun, Yibiao Yang, Yuming Zhou

#### Контекст Satisfiability Modulo Theory (SMT) solvers являются ключевыми инструментами в области исследований по системам и программированию. Они лежат в основе таких задач, как символьное выполнение и автоматическая проверка. Их достоверность и качество тестовых формул, используемых для выявления ошибок, играют ключевую роль в обеспечении надежности этих систем. Однако современные SMT-решатели постоянно развиваются, что сильно усложняет создание качественных тестов. Ранее разработанные методы показали эффективность на более старых версиях систем, но не могут справиться с новыми функциями, добавляемыми в развивающиеся решатели. Данное исследование ориентировано на решение этой проблемы с помощью нового подхода, использующего Large Language Models (LLM) для генерации тестовых формул. #### Метод Предлагаемый подход, Chimera, представляет собой новую LLM-ориентированную стратегию для fuzzing SMT-решателей. Он отличается двумя основными инновациями. Во-первых, Chimera автоматически извлекает контекст-фри грамматики (CFG) из документации для SMT-теорий, включая расширения, специфичные для каждого способа. Во-вторых, Chimera использует генераторы логических выражений, генерируемые LLMs, для создания термов (логических выражений), которые соответствуют этим грамматикам. Эти термы последуют размещаться в уже существующие структурные шаблоны формул, чтобы обеспечить их синтаксическую корректность и нормативность. Этот подход снижает количество ложных срабатываний и позволяет держать высокую скорость генерации формул. Заметно, что Chimera использует LLMs только один раз в начале, чтобы сгенерировать грамматики, чтобы уменьшить накладные расходы на вычислительной мощности. #### Результаты За счет нового подхода, Chimera позволил выявить 43 багов в двух ведущих SMT-решателях: Z3 и cvc5. Из этих 43, 40 багов уже исправлены разработчиками. Эксперименты показали, что Chimera не только увеличил эффективность тестирования, но и повысил качество тестовых формул, при этом существенно сократив время вычислений. Таким образом, Chimera является эффективным инструментом для тестирования и совершенствования существующих SMT-решателей. #### Значимость Полученные результаты важны для многих областей, таких как формальные методы, автоматизированная проверка, и системы символьного вычисления. Улучшенные методы тестирования могут привести к более надежным и производительным системам. Благодаря инновационной интеграции LLMs, Chimera демонстрирует повышенную эффективность в проверке и генерации тестовых формул. Это позволяет

Annotation:

Satisfiability Modulo Theory (SMT) solvers are foundational to modern systems and programming languages research, providing the foundation for tasks like symbolic execution and automated verification. Because these solvers sit on the critical path, their correctness is essential, and high-quality test formulas are key to uncovering bugs. However, while prior testing techniques performed well on earlier solver versions, they struggle to keep pace with rapidly evolving features. Recent approaches ...

ID: 2508.20340v1 cs.SE, cs.AI, cs.PL

arXiv PDF