📚 Саммари научных статей из arXiv

Найдено 341 результатов по запросу 'cs.SE, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Prompt-with-Me: in-IDE Structured Prompt Management for LLM-Driven Software Engineering

2025-09-24

Авторы:

Ziyou Li, Agnia Sergeyuk, Maliheh Izadi

## Контекст Современные Large Language Models (LLM) внедряются во все большее количество областей программирования, включая процессы системного анализа, документирования, тестирования и разработку кода. Однако вопросы управления и эффективного использования промптов (предложенных LLMs наборов данных и задач) в реальных инженерных работах остаются недостаточно развиты. Это приводит к проблемам, таким как нестандартность, неповторяемость, низкая качественная модель работы и проблемы с безопасностью (например, поддержка конфиденциальности). Таким образом, требуется новая архитектура управления промптовыми запросами, которая бы гарантировала их стандартизацию, улучшение качества результатов и интеграцию в существующие рабочие процессы. ## Метод Мы предлагаем Prompt-with-Me — систему для управления промптовыми запросами, которая основывается на встроенной в среду разработки среде. Для классификации промптов мы разработали четырёхуровневую типологию, охватывающую следующие аспекты: 1. **Тип запроса** — например, код, документацию или отладку. 2. **Роль автора** — разработчик, внедряющий систему или тестировщик. 3. **Этап жизненного цикла разработки** — например, планирование, разработка или тестирование. 4. **Стиль запроса** — например, запросы, посвященные генерации кода или верификации. Промпто-с Мей предлагает развитые функции: - **Автоматическое классифицирование промптов** в соответствии с типологией. - **Улучшение языка** промптов, устранение неточностей и маскирование конфиденциальных данных. - **Генерация шаблонов** для повторного использования промптов в различных контекстах разработки. ## Результаты Мы провели исследование на основе 1108 реальных промптов из различных проектов разработки. Наши результаты показали, что Prompt-with-Me достигает высокой точности классификации (в среднем 85%), при этом система успешно классифицирует промптовые запросы в соответствии с разработанной типологией. В пользовательском исследовании с 11 участниками, которые работали с Prompt-with-Me, мы зарегистрировали высокую степень принятия системы (средний SUS-значение — 73, NASA-TLX-значение — 21), что указывает на удобство и эффективность системы в повышении качества промптов и экономии времени разработчиков. ## Значимость Предложенный подход позволяет улучшить классификацию и управление промптовыми запросами в процессе разработки. Он может быть применен в следующих сферах: - **Улучшение качества кода** — с помощью автоматического улучшения промптов и устранения неточностей. - **Уменьшение рисков безопасности** — с помощью маскирования

Annotation:

Large Language Models are transforming software engineering, yet prompt management in practice remains ad hoc, hindering reliability, reuse, and integration into industrial workflows. We present Prompt-with-Me, a practical solution for structured prompt management embedded directly in the development environment. The system automatically classifies prompts using a four-dimensional taxonomy encompassing intent, author role, software development lifecycle stage, and prompt type. To enhance prompt ...

ID: 2509.17096v1 cs.SE, cs.AI, cs.HC

arXiv PDF

📄 Evaluating the Limitations of Local LLMs in Solving Complex Programming Challenges

2025-09-22

Авторы:

Kadin Matotek, Heather Cassel, Md Amiruzzaman, Linh B. Ngo

## Контекст Область исследований, посвященная оценке локальных больших языковых моделей (LLMs) в решении сложных задач программирования, является ключевой для понимания их потенциала и ограничений в реальной практике. Существующие проблемы заключаются в том, что многие локальные LLMs страдают от нехватки ресурсов, ограниченности контекста и недостаточной точности при обработке сложных задач. Эти ограничения приводят к узкому применению в конкурентных программирующих задачах, где необходима высокая точность и полнота вывода. Мотивация заключается в том, чтобы оценить эффективность локальных LLMs и выявить потенциал их улучшения, чтобы они могли стать более конкурентоспособными в сравнении с проприетарными решениями. ## Метод Методология основывается на разработке и развитии Framework for AI-driven Code Generation Evaluation (FACE), который был адаптирован для работы в офлайн-режиме с использованием Ollama runtime. Это позволило сократить многоуровневую структуру данных на каждой задаче до нескольких сплошных JSON-файлов и внедрить систему резервного копирования для возобновления работы после сбоев. Исследования охватывают 3,589 задач из Kattis corpus, протестированные на 8 моделях с параметрами от 6.7 до 9 миллиардов. Данные были сгенерированы, отправлены и записаны в процессе экспериментов, чтобы оценить точность и достоверность решений. ## Результаты Результаты показали, что пропускная способность (pass@1 accuracy) локальных моделей в сравнении с проприетарными моделями Gemini 1.5 и ChatGPT-4 остается значительно ниже. Лучшие локальные модели достигли приблизительно половины точности проприетарных решений. Тем не менее, наблюдается улучшение открытых моделей, что демонстрирует их возможность расти и оптимизироваться в будущем. Результаты также подчеркивают необходимость развития более эффективных методов для обучения и оценки локальных LLMs. ## Значимость Полученные результаты имеют значимые применения в области развития инструментов для программистов, позволяя оценивать и улучшать локальные модели в условиях реалистичных задач. Эти модели могут использоваться в образовательных программах, курсах по программированию и конкурсах, где требуется высокая точность решения задач. Благодаря открытому коду и возможности повторения результатов на внутренней инфраструктуре, данный подход обеспечивает гибкость и удобство для организаций. ## Выводы Основные достижения заключаются в том, что локальные LLMs, несмотря на свои ограничения, демонстрируют улучшение в сравнении с предыдущими моделями и могут быть применены в решении конкретных задач программирования. Будущие исследования должны сконцентрироваться на улучшении точности и расширении контекста, а такж

Annotation:

This study examines the performance of today's open-source, locally hosted large-language models (LLMs) in handling complex competitive programming tasks with extended problem descriptions and contexts. Building on the original Framework for AI-driven Code Generation Evaluation (FACE), the authors retrofit the pipeline to work entirely offline through the Ollama runtime, collapsing FACE's sprawling per-problem directory tree into a handful of consolidated JSON files, and adding robust checkpoint...

ID: 2509.15283v1 cs.SE, cs.AI, cs.LG, cs.PL, I.2.7; F.2.2; I.2.2

arXiv PDF

📄 Towards Robust Agentic CUDA Kernel Benchmarking, Verification, and Optimization

2025-09-20

Авторы:

Robert Tjarko Lange, Qi Sun, Aaditya Prasad, Maxence Faldor, Yujin Tang, David Ha

## Контекст Область исследования сосредоточена на оптимизации CUDA-ядер, используемых для высокопроизводительных вычислений. Несмотря на прогресс в тестировании и оптимизации высокоуровневых моделей, низкоуровневые CUDA-ядра часто остаются недостаточно оптимизироваными. Существующие методы оценки CUDA-ядер часто страдают от недостатка разнообразия в тестовых сценариях и подверждаются уязвимостям, которые мешают точному определению их общей эффективности. Таким образом, целью данного исследования является разработка методологии, обеспечивающей точное тестирование, верификацию и оптимизацию CUDA-ядер, а также автоматического повышения их производительности. ## Метод Статья предлагает методологию оптимизации CUDA-ядер, основанную на использовании глубоких сетей, подходящих для автоматизации тестирования, верификации и оптимизации низкоуровневых вычислительных процессов. Система "robust-kbench" представляет собой новый подход к оценке работоспособности CUDA-ядер, включая ряд сценариев, основанных на реальных задачах. Для оптимизации используется эволюционный подход с мета-генерируемыми моделями, поддерживающих работу в CUDA-среде. На основе этой модели создается процесс, который автоматически создает, проверяет и оптимизирует CUDA-ядра. Это позволяет провести тщательную верификацию и повысить эффективность систем глубокого обучения. ## Результаты Для проверки эффективности подхода были проведены эксперименты, включающие тестирование CUDA-ядер на различных сценариях и сравнение их производительности с torch. Результаты показали, что оптимизированные CUDA-ядра превосходят оригинальные версии по производительности и точности на практических задачах. Тестирование проводилось на широком спектре сценариев, включая различные виды вычислений, что позволило проверить систему на разнообразии условий. Использование этой методологии позволило улучшить эффективность CUDA-ядер и уменьшить время выполнения задач. ## Значимость Разработанная методология может применяться в различных областях, таких как машинное обучение, вычислительная графика и процессы оптимизации низкоуровневых программных решений. Она обеспечивает значительные выгоды в скорости и точности, уменьшая время разработки CUDA-ядер. Благодаря использованию глубоких сетей для верификации и оптимизации, система может быть применена в сложных инфраструктурах, где необходима высокая производительность и достоверность. ## Выводы Результаты исследования показали, что разработанное решение позволяет значительно повысить эффективность CUDA-ядер, а так

Annotation:

Recent advances in large language models (LLMs) demonstrate their effectiveness in scaling test-time compute for software engineering tasks. However, these approaches often focus on high-level solutions, with limited attention to optimizing low-level CUDA kernel implementations. Additionally, existing kernel generation benchmarks suffer from exploitable loopholes and insufficient diversity in testing conditions, hindering true generalization assessment. To address these limitations, we introduce...

ID: 2509.14279v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 SCoGen: Scenario-Centric Graph-Based Synthesis of Real-World Code Problems

2025-09-20

Авторы:

Xifeng Yao, Dongyu Lang, Wu Zhang, Xintong Guo, Huarui Xie, Yinhao Ni, Ping Liu, Guang Shen, Yi Bai, Dandan Tu, Changzheng Zhang

#### Контекст Область развития кодахных бо LLM (Large Language Models) стала одной из ключевых направлений искусственного интеллекта. За последние годы эти модели демонстрируют великолепные результаты в различных задачах, включая автоматизацию разработки программного обеспечения. Однако существует значительная проблема — отсутствие достаточного количества реалистичных реальных проблем, с которыми сталкиваются программисты в повседневной работе. Это ограничивает возможности моделей и требует разработки систем, позволяющих генерировать реалистичные и задачи, воспроизводящие реальные условия разработки. #### Метод Предлагаемая в статье модель SCoGen (Scenario-Centric Graph-Based Synthesis of Real-World Code Problems) строится на основе интеграции доменного знания, навыков и технических решений, извлеченных из реальных программистских данных. Источники данных, использованные в процессе, включают Stack Overflow и Kaggle. Для генерирования кода воспроизводящего реальные контексты, в модели используется граф-представление (scenario-centric graph), в котором каждый узел (domain knowledge, domain skills, coding skills) хранит специфический контекст. Граф строится на основе сценариев (application scenarios), которые также извлекаются из данных. Эта структура позволяет управлять степенью сложности и разнообразия генерируемых задач. #### Результаты Изученная модель протестирована на сравнительных экспериментах с другими современными LLM, включая модели с различными размерами и функциональностью. Результаты показали, что SCoGen показывает значительно лучший результат в генерации реалистичных проблем в сравнении с состоящими моделями, как в области кодинга, так и в общих задачах. Эксперименты проводились на реальных данных, включая задачи из практических проектов. Результаты подтверждают, что SCoGen способна эффективно воспроизводить действительные условия разработки. #### Значимость Этот подход может быть применен в разработке систем для генерирования кода, помогающих программистам в решении реальных задач. SCoGen может повысить эффективность тренировочных моделей, обеспечивая более реалистичные условия тестирования и развития. Кроме того, модель может быть применена в различных областях, где требуется генерация реальных задач, например, для обучения программистам в компаниях, а также для создания тестов и заданий для соревнований в области программирования. #### Выводы Основные достижения SCoGen заключаются в разработке уникальной граф-базной методологии для генерирования реалистичных кодовых проблем. Будущие исследования будут сконцентрированы на улучшении системы управления сложностью генерируемых задач, а также на расширении модели для включения дополнительных типов данных

Annotation:

Significant advancements have been made in the capabilities of code large language models, leading to their rapid adoption and application across a wide range of domains. However, their further advancements are often constrained by the scarcity of real-world coding problems. To bridge this gap, we propose a novel framework for synthesizing code problems that emulate authentic real-world scenarios. This framework systematically integrates domain knowledge, domain skills, and coding skills, all of...

ID: 2509.14281v1 cs.SE, cs.AI

arXiv PDF

📄 A Taxonomy of Prompt Defects in LLM Systems

2025-09-20

Авторы:

Haoye Tian, Chong Wang, BoYang Yang, Lyuye Zhang, Yang Liu

## Контекст Large Language Models (LLMs) являются основными компонентами современного программного обеспечения, используя prompts как интерфейс для программирования. Однако проектирование prompts остается жизнерадостным и часто приводит к непредсказуемому поведению моделей. Ошибки в проектировании могут привести к небезопасному, неэффективному или небезошибочному поведению. Данная статья представляет первую систематизированную статистическую выборку и категоризацию дефектов в prompts, опираясь на примеры из реальных рабочих процессов. ## Метод Статья привносит новую лингвистическую модель, которая используется для категоризации дефектов prompts во время их проектирования. Метод включает в себя четыре шага: (1) Определение категорий дефектов и их характеристик, (2) Использование примеров из реальных рабочих процессов, (3) Определение корневых причин дефектов, (4) Создание алгоритмов для разделения категорий и подтипов. Этот подход позволяет анализировать как основные, так и мелкие дефекты в LLMs. ## Результаты В работе было проанализировано более 2000 дефектов в prompts, полученных из различных источников, включая рабочие процессы и тестирующие программы. Был разработан каталог дефектов, разделенный на шесть основных классов: Specification and Intent, Input and Content, Structure and Formatting, Context and Memory, Performance and Efficiency, и Maintainability and Engineering. Для каждого класса были извлечены подтипы дефектов, иллюстрированные примерами. ## Значимость Разработанная категоризация может быть использована в разработке программного обеспечения, которое использует LLMs, для того, чтобы улучшить надежность, безопасность и эффективность. Она помогает разработчикам выявлять и устранять дефекты в ранней стадии разработки, а также выявлять потенциальные проблемы, которые могут возникнуть в будущем. Этот подход может иметь значительное влияние на развитие новых технологий LLM. ## Выводы Основные достижения статьи заключаются в создании систематизированной категории дефектов в prompts, которая может быть использована в разработке и тестировании LLMs. Будущие исследования будут направлены на развитие автоматизированных систем для диагностики и устранения дефектов в prompts, а также на развитие методов для улучшения разработки и тестирования LLMs. Эти исследования будут способствовать улучшению надёжности и эффективности LLM-driven систем.

Annotation:

Large Language Models (LLMs) have become key components of modern software, with prompts acting as their de-facto programming interface. However, prompt design remains largely empirical and small mistakes can cascade into unreliable, insecure, or inefficient behavior. This paper presents the first systematic survey and taxonomy of prompt defects, recurring ways that prompts fail to elicit their intended behavior from LLMs. We organize defects along six dimensions: (1) Specification and Intent, (...

ID: 2509.14404v1 cs.SE, cs.AI, cs.CL, cs.PL

arXiv PDF

📄 Automating Modelica Module Generation Using Large Language Models: A Case Study on Building Control Description Language

2025-09-20

Авторы:

Hanlong Wan, Xing Lu, Yan Chen, Karthik Devaprasad, Laura Hinkle

## Контекст Развитие динамических энергетических систем и систем управления требует высокоточных моделей для проектирования и тестирования стратегий управления, включая супервизорные и резильентные по отношению к неисправностям. **Modelica** широко применяется в этой области, так как это универсальный язык, основанный на математических уравнениях. Однако разработка модулей управления в Modelica требует больших затрат времени и специализированных знаний. Это становится особенно актуально при работе с моделями управления в системах системных управления зданий (Building Control Description Language, BCDL). В данном исследовании рассматривается возможность использования **large language models (LLMs)** для автоматизации генерации модулей управления в BCDL в рамках Modelica Library. Целью подхода является уменьшение времени разработки и упрощение процесса для специалистов. ## Метод Разработанная методология основывается на использовании **LLMs** стандартными **prompt-сценариями** и квалифицированным **library-aware grounding** (учет спецификации внутренних характеристик Modelica Library). Далее, для проверки кодов, генерируемых LLMs, разработана реализация **automated compilation** с использованием **OpenModelica**, и система **human in the loop** для оценки результатов. Использованы данные из 4 базовых логических задач (And, Or, Not, Switch) и 5 контрольных модулей (например, включение/выключение холодильника, регулировка вентилей, управление шахтами вентиляции). Этапы работы включают создание прототипов моделей, их автоматическую компиляцию и оценку результатов. ## Результаты **GPT-4o** в zero-shot режиме не сумел генерировать работающий код Modelica. **Claude Sonnet 4**, с использованием созданных специально структурированных процессов, достиг в **basic logic blocks** успеха в 100%, а в задачах управления модулями - **83%**. В результатах, не удалось выполнить, инженеры уделяли усредненно 1-8 часов на устранение ошибок. Ошибки в выборе модулей (например, And вместо Or) были частыми при использовании **retrieval-augmented generation**, тогда как **hard rule search strategy** позволила избежать таких неточностей. Кроме того, система **human evaluation** показала более высокую точность по сравнению с **AI-based evaluation**, поскольку текущие LLMs не могут анализировать результаты симуляций или проверять корректность поведения системы. Несмотря на это, автоматизированный подход с **LLM-поддержкой** уменьшил среднее время разработки модулей с 10-20 часов до 4-6 часов, что составляет 40-60% экономии времени. ## Значимость Логические модели, сгенерированные с помощью LLMs, могут применяться в сферах проектирования управляемых зданий, а также для моделирования и симуляции энергетических систем. Этот подход позволил существенно сократить время разработки моделей управления,

Annotation:

Dynamic energy systems and controls require advanced modeling frameworks to design and test supervisory and fault tolerant strategies. Modelica is a widely used equation based language, but developing control modules is labor intensive and requires specialized expertise. This paper examines the use of large language models (LLMs) to automate the generation of Control Description Language modules in the Building Modelica Library as a case study. We developed a structured workflow that combines st...

ID: 2509.14623v1 cs.SE, cs.AI, cs.PL, cs.SY, eess.SY

arXiv PDF

📄 Orion: Fuzzing Workflow Automation

2025-09-20

Авторы:

Max Bazalii, Marius Fleischer

## Контекст Fuzz testing является одной из самых эффективных техник для обнаружения уязвимостей в программном обеспечении. Современные fuzzer могут автоматически генерировать входные данные и отслеживать выполнение программ, но всё то же полное рабочее процесс fuzzing — от анализа кода до конфигурации харнесов и триажирования результатов — всё ещё требует значительных усилий от разработчиков. Ранее разработанные решения фокусировались только на отдельных этапах, таких как генерация харнесов или сокращение входных данных, заставляя исследователей самостоятельно связывать эти этапы в единый процесс fuzzing. ## Метод Orion — это рамформа, которая автоматизирует ключевые этапы fuzzing, объединяя технологии значительного языка (LLM) с традиционными инструментами. Orion использует мощь LLMs для кода логики и семантического руководства, в то же время полагаясь на детерминированные инструменты для проверки, итеративной рефинментации и задач, требующих точности. Этот подход позволяет Orion скейлиться в сценариях, где традиционно требовалось значительное человеческое усилие. ## Результаты Исследователи проверили Orion на различных бенчмарках, демонстрируя его эффективность. Фреймворк уменьшил человеческое усилие на 46–204 раз в зависимости от этапа рабочего процесса. Также были обнаружены две новые уязвимости в широко используемой библиотеке clib, которые ранее были неизвестны. Эти результаты доказывают устойчивость и эффективность Orion в автоматизации fuzzing. ## Значимость Orion может применяться в различных областях, где fuzzing играет ключевую роль, таких как безопасность программного обеспечения, тестирование и аудит. Основные преимущества включают автоматизацию рутинных задач, сокращение времени разработки, увеличение точности и гибкость при масштабировании. Это может привести к значительным улучшениям в обнаружении уязвимостей и упрощению процесса тестирования. ## Выводы Orion представляет собой перспективный подход к автоматизации fuzzing, который может реvolutionize обнаружение уязвимостей. Будущие исследования будут фокусироваться на расширении функциональности, улучшении точности и расширении применимости фреймворка в различных технологических сферах.

Annotation:

Fuzz testing is one of the most effective techniques for finding software vulnerabilities. While modern fuzzers can generate inputs and monitor executions automatically, the overall workflow, from analyzing a codebase, to configuring harnesses, to triaging results, still requires substantial manual effort. Prior attempts focused on single stages such as harness synthesis or input minimization, leaving researchers to manually connect the pieces into a complete fuzzing campaign. We introduce Ori...

ID: 2509.15195v1 cs.SE, cs.AI, cs.CR, D.4.6; I.2.2; D.2.5

arXiv PDF

📄 Do Code Semantics Help? A Comprehensive Study on Execution Trace-Based Information for Code Large Language Models

2025-09-19

Авторы:

Jian Wang, Xiaofei Xie, Qiang Hu, Shangqing Liu, Yi Li

## Контекст Кодные ЛLМы (Code LLMs) представляют собой перспективные инструменты для программирования, обладающими выдающимися способностями в обработке и понимании кода. Однако недавние исследования выделили существенные ограничения этих моделей в логическом рассуждении и понимании функциональности программ. Основными проблемами являются: (1) нехватка уверенности в оценке выполнения программы во время исполнения (runtime behavior), что затрудняет их использование в задачах, требующих точного понимания, (2) несогласованность и декомпозированность семантической информации, такой как выполнение трасс, в существующих подходах, что существенно сказывается на общеуниверсальности и логических возможностях моделей. Эти затруднения подчеркивают необходимость проработки систематичных методов для повышения рассуждающих возможностей Code LLMs. ## Метод Мы предлагаем универсальный фреймворк, который использует семантическую информацию, такую как выполнение трасс, для повышения точности задач, связанных с кодом. Наш подход стремится к тому, чтобы объединить эту информацию с кодовыми задачами, улучшая возможности моделей для супервизированного отображения (supervised fine-tuning, SFT) и постобучения вывода (post-phase inference). Мы проводим подробный анализ влияния этой информации на различные модели Code LLMs, проверяя способность различных подходов к обработке семантической информации и её вклад в улучшение результатов. ## Результаты Мы провели широкий экспериментальный анализ, используя различные модели Code LLMs и наборы данных, связанных с выполнением трасс. Наши результаты показывают, что несмотря на важность семантической информации, её вклад в улучшение SFT и тестовых задач оказался ограниченным. Более того, наши эксперименты демонстрируют, что существующие методы не удается полностью решить проблемы несогласованности и неполноты семантической информации, что ставит под вопрос их использование в практических задачах. ## Значимость Наши результаты имеют большое значение для области искусственного интеллекта и программирования. Они указывают на необходимость развития более систематичных подходов к интеграции семантической информации в модели Code LLMs. Это может привести к улучшению их точности, универсальности и практического применения в реальных задачах. Мы также выделяем потенциал для дальнейших исследований в области улучшения рассуждений моделей Code LLMs, в том числе развития новых подходов к обработке семантических данных. ## Выводы Мы демонстрируем ограниченность вклада семантической информации в улучшение SFT и постобучения вывода Code LLMs. Наши результаты вызовут новую д

Annotation:

Code Large Language Models (Code LLMs) have opened a new era in programming with their impressive capabilities. However, recent research has revealed critical limitations in their ability to reason about runtime behavior and understand the actual functionality of programs, which poses significant challenges for their post-training and practical deployment. Specifically, Code LLMs encounter two principal issues: (1) a lack of proficiency in reasoning about program execution behavior, as they stru...

ID: 2509.11686v2 cs.SE, cs.AI

arXiv PDF

📄 An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

2025-09-19

Авторы:

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha, Saeid Tizpaz-Niari

## Контекст Область использования Легкоразмерных Моделей Языка (LLM) в задачах юридического характера становится все более актуальной, однако существуют значительные проблемы, связанные с надежностью. Одна из них — задача применения LLMs в юридически критических ситуациях, где необходимо точно интерпретировать законодательство. Классические задачи, такие как перевод текстов законов в экзекутабельный код, требуют высокой точности, чтобы избежать ошибок, которые могут привести к серьезным последствиям. Большинство задач в этой области связаны с проблемой "oracle problem", когда фактический вывод зависит от точного понимания юридических текстов, что усложняет процесс тестирования систем. В этом контексте появляется идея использования LLMs для создания легально-критического программного обеспечения, где необходима высокая целостность и точность. ## Метод Для решения этой задачи разработан агентный подход, основанный на агентной архитектуре, в которой LLM используется как сервисный агент. Архитектура включает в себя несколько компонентов: 1. **LLM для генерации тестовых сценариев**: генерирует метаморфические тестовые сценарии на основе юридических текстов. 2. **Метаморфические связи высшего порядка**: используются для сравнения выводов системы на похожих случаях. 3. **Лингвистический анализ**: позволяет понять, какие метаморфические тестовые сценарии действительно значимы для конкретной задачи. 4. **Система многоагентной системы**: включает в себя агенты, которые осуществляют различные задачи, такие как генерация тестовых сценариев, выполнение кода и выполнение метаморфического тестирования. ## Результаты В экспериментах была использована модель GPT-4o-mini для генерирования тестовых сценариев и проверки кода. Наиболее заметный результат заключается в том, что данная модель показала лучший результат в сравнении с другими лидирующими моделями, такими как GPT-4o и Claude 3.5. За счет использования метаморфического тестирования, система смогла достичь значительного повышения надежности и точности. Это продемонстрировано значительным приростом проходной скорости (pass rate) для сложных задач связанных с нормативным кодом, когда используется меньшая модель GPT-4o-mini. ## Значимость Этот подход показывает возможность использовать LLM в юридически критических задачах, таких как подготовка налоговых отчетов. Он может применяться в различных юридических сферах, где необходима точная интерпретация закона. Преимущества этого подхода заключаются в улучшении надежности и точности в сравнении с другими методами. Будущие

Annotation:

Large language models (LLMs) show promise for translating natural-language statutes into executable logic, but reliability in legally critical settings remains challenging due to ambiguity and hallucinations. We present an agentic approach for developing legal-critical software, using U.S. federal tax preparation as a case study. The key challenge is test-case generation under the oracle problem, where correct outputs require interpreting law. Building on metamorphic testing, we introduce higher...

ID: 2509.13471v1 cs.SE, cs.AI

arXiv PDF

📄 Prompt2DAG: A Modular Methodology for LLM-Based Data Enrichment Pipeline Generation

2025-09-19

Авторы:

Abubakari Alidu, Michele Ciavotta, Flavio DePaoli

#### Контекст Разработка надежных пайлов для обогащения данных требует значительных технических навыков и экспертизы. Одной из самых сложных задач в этой области является автоматизация генерирования этих пайлов с помощью глубоко обученных моделей (LLMs). В настоящее время существует недостаток методов, позволяющих автоматически генерировать высококачественные пайлы для различных сценариев. Эти проблемы влекут за собой потери времени, ресурсов и неэффективность при разработке. Объектом исследования является разработка методологии, которая бы позволила легко и эффективно генерировать пайлы для обогащения данных на основе естественного языка, обеспечивая их высокую надежность и эффективность. #### Метод Методология Prompt2DAG представляет собой модульную систему, которая преобразует естественный языковой запрос в выполняемые DAG-файлы для Apache Airflow. Она включает четыре подхода к генерации: **Direct** (прямая генерация с помощью LLMs), **LLM-only** (полностью на основе LLMs), **Hybrid** (с использованием гибридной модели, сочетающей LLM и шаблоны) и **Template-based** (шаблонная генерация). Методология также использует 13 моделей LLMs и проводит 260 экспериментов для оценки качества генерируемых DAG-файлов. Оценка выполняется с использованием специального рамщика, измеряющего надежность (SAT), структурную корректность (DST) и исполнимость (PCT) DAG-файлов. #### Результаты Эксперименты показали, что **Hybrid**-подход дает наилучшие результаты, достигая 78.5% успешности в генерации DAG-файлов. Этот подход также достиг высоких показателей качества кода: SAT (6.79), DST (7.67) и PCT (7.76). В сравнении с **LLM-only** (66.2% успешности) и **Direct** (29.2% успешности), Hybrid-подход показал значительное превосходство, особенно в обеспечении надежности. Анализ затрат показал, что Hybrid-подход дважды эффективнее Direct-подхода, что делает его более выгодным для производственных применений. Таким образом, Hybrid-подход демонстрирует баланс между гибкостью и надежностью, что делает его применимым для автоматизированной разработки пайлов обогащения данных. #### Значимость Результаты имеют значительное значение для различных сфер, включая автоматизацию процессов в области бизнес-аналитики, машинного обучения и интеллектуального анализа данных. Методология Prompt2DAG позволяет эффективно демократизировать доступ к технологиям обогащения данных, уменьшая затраты на разработку и поддержку таких систем. Основными преимуществами являются увеличение производительности, сокращение времени на разработку и повышение надежности. Будущие исследования б

Annotation:

Developing reliable data enrichment pipelines demands significant engineering expertise. We present Prompt2DAG, a methodology that transforms natural language descriptions into executable Apache Airflow DAGs. We evaluate four generation approaches -- Direct, LLM-only, Hybrid, and Template-based -- across 260 experiments using thirteen LLMs and five case studies to identify optimal strategies for production-grade automation. Performance is measured using a penalized scoring framework that combine...

ID: 2509.13487v1 cs.SE, cs.AI

arXiv PDF

1
2
21
22
23
24
25
34
35

Показано 221 - 230 из 341 записей