📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Shailja Thakur, Vaibhav Saxena, Rohan Kulkarni, Shivdeep Singh, Parameswaran Selvam, Hima Patel, Hiroshi Kanayama
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Teaching language models to reason about code execution remains a fundamental challenge. While Chain-of-Thought (CoT) prompting has shown promise, current synthetic training data suffers from a critical weakness: the reasoning steps are often plausible-sounding explanations generated by teacher models, not verifiable accounts of what the code actually does. This creates a troubling failure mode where models learn to mimic superficially convincing but logically flawed reasoning patterns.
We add...
Авторы:
David Jiahao Fu, Aryan Gupta, Aaron Councilman, David Grove, Yu-Xiong Wang, Vikram Adve
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Recent advancements in large language models (LLMs) have shown very impressive capabilities in code generation across many programming languages. However, even state-of-the-art LLMs generate programs that contains syntactic errors and fail to complete the given tasks, especially for low-resource programming languages (LRPLs). In addition, high training cost makes finetuning LLMs unaffordable with constrained computational resources, further undermining the effectiveness of LLMs for code generati...
Авторы:
Noah van der Vleuten, Anthony Flores, Shray Mathur, Max Rakitin, Thomas Hopkins, Kevin G. Yager, Esther H. R. Tsai
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Evaluating large language models (LLMs) for instrument control requires methods that go beyond standard, stateless algorithmic benchmarks, since the behavior of physical systems cannot be fully captured by unit tests alone. Here we introduce EnvTrace, a simulation-based method that evaluates execution traces to assess semantic code equivalence. EnvTrace is demonstrated with a beamline control-logic digital twin to facilitate the evaluation of instrument control code, with the digital twin itself...
Авторы:
Cedric Richter, Heike Wehrheim
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Automatic software verifiers have become increasingly effective at the task
of checking software against (formal) specifications. Yet, their adoption in
practice has been hampered by the lack of such specifications in real world
code. Large Language Models (LLMs) have shown promise in inferring formal
postconditions from natural language hints embedded in code such as function
names, comments or documentation. Using the generated postconditions as
specifications in a subsequent verification, how...
Авторы:
Hanlong Wan, Xing Lu, Yan Chen, Karthik Devaprasad, Laura Hinkle
## Контекст
Развитие динамических энергетических систем и систем управления требует высокоточных моделей для проектирования и тестирования стратегий управления, включая супервизорные и резильентные по отношению к неисправностям. **Modelica** широко применяется в этой области, так как это универсальный язык, основанный на математических уравнениях. Однако разработка модулей управления в Modelica требует больших затрат времени и специализированных знаний. Это становится особенно актуально при работе с моделями управления в системах системных управления зданий (Building Control Description Language, BCDL). В данном исследовании рассматривается возможность использования **large language models (LLMs)** для автоматизации генерации модулей управления в BCDL в рамках Modelica Library. Целью подхода является уменьшение времени разработки и упрощение процесса для специалистов.
## Метод
Разработанная методология основывается на использовании **LLMs** стандартными **prompt-сценариями** и квалифицированным **library-aware grounding** (учет спецификации внутренних характеристик Modelica Library). Далее, для проверки кодов, генерируемых LLMs, разработана реализация **automated compilation** с использованием **OpenModelica**, и система **human in the loop** для оценки результатов. Использованы данные из 4 базовых логических задач (And, Or, Not, Switch) и 5 контрольных модулей (например, включение/выключение холодильника, регулировка вентилей, управление шахтами вентиляции). Этапы работы включают создание прототипов моделей, их автоматическую компиляцию и оценку результатов.
## Результаты
**GPT-4o** в zero-shot режиме не сумел генерировать работающий код Modelica. **Claude Sonnet 4**, с использованием созданных специально структурированных процессов, достиг в **basic logic blocks** успеха в 100%, а в задачах управления модулями - **83%**. В результатах, не удалось выполнить, инженеры уделяли усредненно 1-8 часов на устранение ошибок. Ошибки в выборе модулей (например, And вместо Or) были частыми при использовании **retrieval-augmented generation**, тогда как **hard rule search strategy** позволила избежать таких неточностей. Кроме того, система **human evaluation** показала более высокую точность по сравнению с **AI-based evaluation**, поскольку текущие LLMs не могут анализировать результаты симуляций или проверять корректность поведения системы. Несмотря на это, автоматизированный подход с **LLM-поддержкой** уменьшил среднее время разработки модулей с 10-20 часов до 4-6 часов, что составляет 40-60% экономии времени.
## Значимость
Логические модели, сгенерированные с помощью LLMs, могут применяться в сферах проектирования управляемых зданий, а также для моделирования и симуляции энергетических систем. Этот подход позволил существенно сократить время разработки моделей управления,
Annotation:
Dynamic energy systems and controls require advanced modeling frameworks to
design and test supervisory and fault tolerant strategies. Modelica is a widely
used equation based language, but developing control modules is labor intensive
and requires specialized expertise. This paper examines the use of large
language models (LLMs) to automate the generation of Control Description
Language modules in the Building Modelica Library as a case study. We developed
a structured workflow that combines st...
Авторы:
Mikel Robredo, Matteo Esposito, Fabio Palomba, Rafael Peñaloza, Valentina Lenarduzzi
## Контекст
Refactoring — процесс улучшения кода без изменения его внешнего поведения — является важной практикой для повышения качества программного обеспечения. Однако его применение связано с высокими затратами времени и ресурсов. Одним из основных вопросов является понимание, почему разработчики проводят refactoring, и какие метрики могут быть эффективными для оценки этих мотиваций. Это понимание может помочь улучшить использование refactoring в практических задачах и сделать его более эффективным.
## Метод
Для исследования мотиваций разработчиков во время refactoring был проведен широкомасштабный анализ данных версий управления кодом с использованием Large Language Models (LLMs). Эти модели использовались для определения основных причин refactoring, а результаты были сравнены с мотивациями, предлагаемыми в современной литературе. Также были использованы различные метрики, отражающие качество кода и его читаемость, для оценки их влияния на мотивации.
## Результаты
LLMs показали высокую точность в 80% случаев, согласовываясь с мотивациями, известными из литературы в 47% случаев. Они также добавили детальные пояснения к 22% мотиваций, основываясь на сигнатах, версиях, комментариях и других данных из version control. Основные мотивации включали в себя упрощение кода, повышение читаемости и улучшение структуры. Однако метрики, отражающие качество кода и читаемость, показали слабую корреляцию с мотивациями разработчиков.
## Значимость
Полученные результаты могут быть применены в различных областях, таких как анализ качества кода, автоматизированные инструменты для поддержки refactoring и системы мониторинга. Использование LLMs для понимания мотиваций может улучшить возможности для решения проблем принятия решений в коде. Более того, LLM-driven гибридные подходы, сочетающие статистические метрики и локализованные пояснения, могут помочь более систематично оптимизировать refactoring и выравнивать короткосрочные улучшения с длительными целями архитектуры.
## Выводы
Результаты исследования показали, что LLM-based модели эффективно идентифицируют мотивации на уровне синтаксиса и семантики кода, но сталкиваются с трудностями при понимании архитектурных мотиваций. Будущие исследования будут сконцентрированы на улучшении моделей для повышения точности в архитектурных задачах и на интеграции LLMs с кодовыми метриками для создания более сильных инструментов для принятия рефакторинг-решений.
Annotation:
Context. Code refactoring improves software quality without changing external
behavior. Despite its advantages, its benefits are hindered by the considerable
cost of time, resources, and continuous effort it demands. Aim. Understanding
why developers refactor, and which metrics capture these motivations, may
support wider and more effective use of refactoring in practice. Method. We
performed a large-scale empirical study to analyze developers refactoring
activity, leveraging Large Language Mode...
📄 Boosting Skeleton-Driven SMT Solver Fuzzing by Leveraging LLM to Produce Formula Generators
2025-08-30Авторы:
Maolin Sun, Yibiao Yang, Yuming Zhou
#### Контекст
Satisfiability Modulo Theory (SMT) solvers являются ключевыми инструментами в области исследований по системам и программированию. Они лежат в основе таких задач, как символьное выполнение и автоматическая проверка. Их достоверность и качество тестовых формул, используемых для выявления ошибок, играют ключевую роль в обеспечении надежности этих систем. Однако современные SMT-решатели постоянно развиваются, что сильно усложняет создание качественных тестов. Ранее разработанные методы показали эффективность на более старых версиях систем, но не могут справиться с новыми функциями, добавляемыми в развивающиеся решатели. Данное исследование ориентировано на решение этой проблемы с помощью нового подхода, использующего Large Language Models (LLM) для генерации тестовых формул.
#### Метод
Предлагаемый подход, Chimera, представляет собой новую LLM-ориентированную стратегию для fuzzing SMT-решателей. Он отличается двумя основными инновациями. Во-первых, Chimera автоматически извлекает контекст-фри грамматики (CFG) из документации для SMT-теорий, включая расширения, специфичные для каждого способа. Во-вторых, Chimera использует генераторы логических выражений, генерируемые LLMs, для создания термов (логических выражений), которые соответствуют этим грамматикам. Эти термы последуют размещаться в уже существующие структурные шаблоны формул, чтобы обеспечить их синтаксическую корректность и нормативность. Этот подход снижает количество ложных срабатываний и позволяет держать высокую скорость генерации формул. Заметно, что Chimera использует LLMs только один раз в начале, чтобы сгенерировать грамматики, чтобы уменьшить накладные расходы на вычислительной мощности.
#### Результаты
За счет нового подхода, Chimera позволил выявить 43 багов в двух ведущих SMT-решателях: Z3 и cvc5. Из этих 43, 40 багов уже исправлены разработчиками. Эксперименты показали, что Chimera не только увеличил эффективность тестирования, но и повысил качество тестовых формул, при этом существенно сократив время вычислений. Таким образом, Chimera является эффективным инструментом для тестирования и совершенствования существующих SMT-решателей.
#### Значимость
Полученные результаты важны для многих областей, таких как формальные методы, автоматизированная проверка, и системы символьного вычисления. Улучшенные методы тестирования могут привести к более надежным и производительным системам. Благодаря инновационной интеграции LLMs, Chimera демонстрирует повышенную эффективность в проверке и генерации тестовых формул. Это позволяет
Annotation:
Satisfiability Modulo Theory (SMT) solvers are foundational to modern systems
and programming languages research, providing the foundation for tasks like
symbolic execution and automated verification. Because these solvers sit on the
critical path, their correctness is essential, and high-quality test formulas
are key to uncovering bugs. However, while prior testing techniques performed
well on earlier solver versions, they struggle to keep pace with rapidly
evolving features. Recent approaches ...