📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 PRISM: Proof-Carrying Artifact Generation through LLM x MDE Synergy and Stratified Constraints
2025-11-01Авторы:
Tong Ma, Hui Lai, Hui Wang, Zhenhu Tian, Jizhou Wang, Haichao Wu, Yongfan Gao, Chaochao Li, Fengjie Xu, Ling Fang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
PRISM unifies Large Language Models with Model-Driven Engineering to generate
regulator-ready artifacts and machine-checkable evidence for safety- and
compliance-critical domains. PRISM integrates three pillars: a Unified
Meta-Model (UMM) reconciles heterogeneous schemas and regulatory text into a
single semantic space; an Integrated Constraint Model (ICM) compiles structural
and semantic requirements into enforcement artifacts including generation-time
automata (GBNF, DFA) and post-generation v...
Авторы:
Gwihwan Go, Quan Zhang, Chijin Zhou, Zhao Wei, Yu Jiang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Automated unit test generation is essential for robust software development,
yet existing approaches struggle to generalize across multiple programming
languages and operate within real-time development. While Large Language Models
(LLMs) offer a promising solution, their ability to generate high coverage test
code depends on prompting a concise context of the focal method. Current
solutions, such as Retrieval-Augmented Generation, either rely on imprecise
similarity-based searches or demand the...
Авторы:
Hadiza Umar Yusuf, Khouloud Gaaloul
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In the world of Cyber-Physical Systems (CPS), a captivating real-time fusion
occurs where digital technology meets the physical world. This synergy has been
significantly transformed by the integration of artificial intelligence (AI), a
move that dramatically enhances system adaptability and introduces a layer of
complexity that impacts CPS control optimization and reliability. Despite
advancements in AI integration, a significant gap remains in understanding how
this shift affects CPS architect...
Авторы:
Yongda Yu, Guohao Shi, Xianwei Wu, Haochuan He, XueMing Gu, Qianqian Zhao, Kui Liu, Qiushi Wang, Zhao Tian, Haifeng Shen, Guoping Rong
#### Область применения
В статье предлагается MelcotCR, метод для оптимизации ларж-лангуэдж моделей (LLMs) для анализа нескольких аспектов кода в процессе кода ревью. Метод использует методы цепи мыслей (chain-of-thought, COT), с помощью которых модели способны предоставлять выверенные и структурированные ответы. Этот подход вносит большой вклад в автоматизацию кода ревью, что делает его ценным для разработчиков программного обеспечения и команд технического контроля. Метод может использоваться для улучшения качества кода, ускорения процесса проверки и уменьшения человеческого участия в рутинных задачах.
#### Значимость
MelcotCR показывает серьезный потенциал в автоматизации кода ревью. Он может повысить точность обнаружения ошибок и описание проблем, а также уменьшить время, затрачиваемое на ревью. Достигнутые результаты демонстрируют, что низкопараметрическая модель может выдавать результаты, которые почти вписываются в рамки результатов высокопараметрических моделей. Это решение может быть применено в сфере развития программного обеспечения, в частности, в процессах CI/CD, а также в широких областях, где необходимо автоматизировать процессы управления качеством.
#### Результаты
В ходе исследования проводились эксперименты на двух датасетах: MelcotCR и CodeReviewer. Метод MelcotCR показал выдающиеся результаты в задаче обнаружения и описания ошибок в коде. Низкопараметрическая модель, оптимизированная методом MelcotCR, показала результаты, сопоставимые с результатами модели DeepSeek-R1, известной за высокую точность. Эта конкурентность достигнута благодаря новой регуляции логики мыслей, которая уменьшает риск потери контекста и улучшает четкость логики.
#### Метод
MelcotCR основывается на цепи мыслей (COT), но добавляет новую регуляцию с помощью принципа максимальной энтропии (ME). Это позволяет модели повысить логическую связность и уменьшить потери контекста при обработке длинных COT-проволок. Метод предоставляет структуру для длинных запросов, чтобы улучшить интерпретацию и вывод модели. Архитектура предлагает новое решение для обеспечения высокого качества кода ревью с меньшим количеством параметров, чем в предыдущих методах.
#### Контекст
Ларж-лангуэдж модели (LLMs) становятся все более популярными в разработке программного обеспечения, особенно в области кода ревью. Однако они страдают от ограничений в контекстном понимании и логическом выводе, когда они работают с кодом. Это связано с ограниченным финетюнингом, который обычно ограничивается одним аспектом проблемы. Эта статья рассматривает проблему и предлагает новый подход, который обеспечивает LLMs более широ
Annotation:
Large Language Models (LLMs) have shown great potential in supporting
automated code review due to their impressive capabilities in context
understanding and reasoning. However, these capabilities are still limited
compared to human-level cognition because they are heavily influenced by the
training data. Recent research has demonstrated significantly improved
performance through fine-tuning LLMs with code review data. However, compared
to human reviewers who often simultaneously analyze multipl...
Авторы:
Sébastien Salva, Redha Taguelmimt
## Контекст
Область исследования включает в себя использование естественного языка (NL) для создания тестовых сценариев в процессе тестирования. Недостатком этого подхода является высокая стоимость разработки и трудности в поддержке скриптов. Новые возможности, предоставленные большими языковыми моделями (LLMs), позволяют использовать естественный язык непосредственно для выполнения тестов. Однако возникают проблемы, такие как неточность (unsoundness) тестовых сценариев и несогласованность их результатов при повторном выполнении. Необходимо разработать системы, обеспечивающие высокую надежность и точность выполнения тестов, чтобы сделать этот подход применимым в промышленных условиях.
## Метод
Предложена методология, основанная на использовании гибридных моделей: LLMs и специализированных агентов. Агенты отвечают за этапы исполнения тестов, например, выполнение действий в приложении, проверка результатов и динамическое верифицирование шагов. Для уменьшения уровня unsoundness используются механизмы "защитных заборов" (guardrails), которые предотвращают некорректное поведение модели. Также предложены меры для оценки точности выполнения тестов и уровня консистентности. Архитектура системы включает в себя модельный компонент, выполняющий текст тестов, и агентскую систему, обеспечивающую контроль и повторную проверку.
## Результаты
Были проведены эксперименты с восемью публично доступными LLMs, имеющими до 70 миллиардов параметров. Оценивались уровни unsoundness и consistency в выполнении тестов. Результаты показали, что Meta Llama 3.1 (70B параметров) показала лучший результат в том числе в высокой консистентности выполнения (выше уровня 3-sigma). Выявлены ситуации, в которых модели могут показать приемлемые результаты, но с рядом ограничений, таких как неоднозначные инструкции в NL-тестах. На основе этих результатов были разработаны прототипы инструментов и наборы тестов.
## Значимость
Результаты имеют потенциал для применения в промышленном тестировании приложений с графическим интерфейсом. Основное преимущество — сокращение времени и стоимости разработки тестов благодаря использованию естественного языка. Также отмечается повышение уровня надежности и повторяемости тестов, что способствует улучшению качества программного обеспечения. Направления будущих исследований включают улучшение моделей, уменьшение неоднозначности естественного языка и повышение уровня контроля в тестировании.
## Выводы
Полученные результаты подтвердили потенциал LLMs в выполнении NL-тестов, особенно при использовании моделей с
Annotation:
The use of natural language (NL) test cases for validating graphical user
interface (GUI) applications is emerging as a promising direction to manually
written executable test scripts, which are costly to develop and difficult to
maintain. Recent advances in large language models (LLMs) have opened the
possibility of the direct execution of NL test cases by LLM agents. This paper
investigates this direction, focusing on the impact on NL test case unsoundness
and on test case execution consistenc...
Авторы:
Alexandre Sallinen, Stefan Krsteski, Paul Teiletche, Marc-Antoine Allard, Baptiste Lecoeur, Michael Zhang, Fabrice Nemo, David Kalajdzic, Matthias Meyer, Mary-Anne Hartley
## Контекст
Область адаптивных генерируемых систем на базе языковых моделей (LLMs) постоянно растёт, становится все более важной в связи с возрастающим требованием к высококачественному решению проблем в различных сферах. Одна из главных проблем заключается в обработке и анализе разных форматов документов, включающих текст, таблицы, изображения, аудио, видео и другие. Настоящая работа уделяет особое внимание сложностям, связанным с единообразной обработкой этих данных, и предлагает решение в виде новой общедоступной и мощной системы, которая может заниматься обработкой и взаимодействием с такими многообразными данными.
## Метод
Методология, используемая в системе MMORE (Massive Multimodal Open RAG & Extraction), основывается на модульной архитектуре, позволяющей обрабатывать многообразные форматы документов в реальном времени. Данная система использует методы гибридной сетевой и разреженной нейронной нейронной сети для эффективной индексации и поиска данных. Также в MMORE реализовано широкое количество модулей для преобразования форматов и экстракции данных, что позволяет производить обработку и анализ больших массивов полезных данных в разных форматах.
## Результаты
Система MMORE была протестирована на различных наборах данных, включая текстовые документы, таблицы и изображения. Она способна обрабатывать более 15 различных форматов документов и достигает высокой скорости и точности в процессе обработки. На примере PubMedQA, где рассматривалась биомедицинская область, система показала увеличение точности ответов с помощью возможности выполнять более глубокий поиск в базе знаний. Также была установлена высокая эффективность в сравнении с другими похожими системами, в частности, Docling, где была достигнута 40% выше точность при обработке просканированных PDF-документов.
## Значимость
MMORE представляет собой мощное инструмент для многомодальной обработки и взаимодействия с текстом, таблицами, изображениями и другими форматами. Он может использоваться в различных областях, включая медицину, право, образование и технические задачи. Его мобильность и модульность делают его подходящим для различных ситуаций, где необходима быстрая и точная обработка данных. Возможно, MMORE может стать ключевым инструментом для создания более мощных и эффективных систем в области глубокого обучения и работы с многомодальными данными.
## Выводы
Система MMORE представляет собой высокоэффективный инструмент для обработки многомодальных данных, который обеспечивает высокую скорость и точность в процессе работы с различными форматами документов. Она позволяет создавать мощные системы для многомодальной адаптив
Annotation:
We introduce MMORE, an open-source pipeline for Massive Multimodal Open
RetrievalAugmented Generation and Extraction, designed to ingest, transform,
and retrieve knowledge from heterogeneous document formats at scale. MMORE
supports more than fifteen file types, including text, tables, images, emails,
audio, and video, and processes them into a unified format to enable downstream
applications for LLMs. The architecture offers modular, distributed processing,
enabling scalable parallelization acr...
Авторы:
Abhik Roychoudhury
#### Контекст
Область исследования сосредоточена на внедрении agentic AI в программное обеспечение, чтобы улучшить процессы разработки и обслуживания программного обеспечения. Известно, что AI-агенты уже демонстрируют важное значение в задачах, таких как генерация кода, тестирование и исправление программ, но существуют и другие аспекты, такие как архитектурное проектирование, понимание требований и их принудительное применение в коде. Эти задачи часто связаны с микро-решениями, которые могут быть автономно приняты AI-агентами, опираясь на анализ программного кода. AI-агенты могут стать полноценными участниками команд разработки, но их эффективность зависит от того, насколько они могут понять интент разработчика.
#### Метод
AI-агенты применяются в различных уровнях разработки программного обеспечения, включая низкие уровни (например, генерацию и оптимизацию кода) и высокие уровни (например, архитектурный дизайн и требования к коду). Методология включает использование программного анализа для понимания типов задач, а также создание алгоритмов, которые позволяют AI-агентам делать рассуждения, основываясь на данных и предыдущих опытах. Это позволяет имитировать человеческие решения в различных сферах программного обеспечения.
#### Результаты
Исследования показали, что AI-агенты позволяют автоматизировать многие процессы разработки, включая генерацию кода, тестирование и исправления ошибок. На практике эти технологии позволяют существенно увеличить производительность разработчиков. Научные эксперименты проводились на различных корпусах данных, включая коды различных приложений. Результаты показали, что AI-агенты способны выполнять задачи быстрее человека, сохраняя высокое качество решений.
#### Значимость
Возможности применения AI-агентов в программном обеспечении включают автоматизацию рутинных задач, улучшение качества кода и уменьшение числа ошибок. Эти технологии могут быть применены в различных областях, например, в сфере разработки сложных систем, а также в области обеспечения качества программного обеспечения. Использование AI-агентов возможно даже в таких сложных задачах, как понимание требований и их принудительное применение на разных уровнях программного обеспечения.
#### Выводы
Основное достижение заключается в понимании того, что AI-агенты могут стать сильными участниками команд разработки, повышая эффективность разработки программного обеспечения. В будущем будет важно решать вопросы, связанные с доверием к AI-агентам и их влиянием на качество программного обеспечения. Направления для будущих исследований включают развитие методов, позволяю
Annotation:
AI agents have recently shown significant promise in software engineering.
Much public attention has been transfixed on the topic of code generation from
Large Language Models (LLMs) via a prompt. However, software engineering is
much more than programming, and AI agents go far beyond instructions given by a
prompt.
At the code level, common software tasks include code generation, testing,
and program repair. Design level software tasks may include architecture
exploration, requirements unders...
Авторы:
Igor Costa, Christopher Baran
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Современное программное обеспечение сталкивается с критическим вызовом ускоряющейся технологической эволюции, где традиционные подходы разработки не справляются с масштабами и сложностью поддержки устаревающих систем. Легаси-код, написанный на устаревших языках вроде COBOL, CGI, ColdFusion и Lisp, продолжает выполнять критически важные функции в банковской, государственной и корпоративной инфраструктуре, но страдает от отсутствия специалистов, документации и совместимости с современными стандартами безопасности. Параллельно растет технический долг в современных системах, где быстрое добавление новых функций ведет к накоплению архитектурных компромиссов и уязвимостей безопасности.
Традиционные методы модернизации, включая ручной рефакторинг и автоматизированные инструменты на основе правил, демонстрируют фундаментальные ограничения. Ручные подходы масштабируются линейно с числом разработчиков и страдают от человеческого фактора, в то время как правило-ориентированные инструменты не способны адаптироваться к контексту и часто нарушают неявные контракты системы. Большие языковые модели (LLM), несмотря на свою мощность, страдают от высоких вычислительных затрат, недостаточной контролируемости и тенденции к "галлюцинациям" при генерации кода, что критично для продакшен-систем.
Авторы статьи формулируют концепцию "Software 3.0" как следующий этап эволюции программного обеспечения, где системы становятся способными к непрерывной самоэволюции при сохранении измеримого контроля над качеством и поведением. Ключевая проблема заключается в создании такого механизма эволюции, который мог бы эффективно работать с разнородными артефактами разработки (кодом, документацией, тестами, билдами) при этом оставаясь практически применимым в условиях реальных ограничений производственной среды.
## ПРЕДЛОЖЕННЫЙ МЕТОД
EvoGraph представляет собой революционный фреймворк, который реализует принципы эволюционной биологии в контексте разработки программного обеспечения. Основой системы является строго типизированный направленный граф, где каждый узел представляет собой конкретный артефакт разработки - от строк кода и тестов до документации и билд-скриптов. Ребра графа выражают семантические и технические зависимости между артефактами, создавая исчерпывающую модель всей системы.
Центральным элементом является набор специализированных малых языковых моделей (SLM), каждая из которых обучена для выполнения конкретного типа мутаций. В отличие от универсальных LLM, эти модели имеют гораздо меньший размер (от 7M до 1B параметров), что обеспечивает 90% экономию вычислительных ресурсов. Каждая SLM реализует набор семантически значимых мутационных операторов, специфичных для конкретного языка программирования или типа артефакта. Например, для COBOL-Java трансформации модель обучена распознавать паттерны бизнес-логики и эквивалентно их переносить в объектно-ориентированную парадигму.
Процесс эволюции реализуется через итеративный цикл генерации-отбора-мутации. На каждом поколении система генерирует множество вариантов изменений, применяя мутационные операторы к текущему состоянию графа. Отбор потомков осуществляется на основе многокритериальной функции приспособленности, включающей метрики функциональной эквивалентности (через тесты), производительности, безопасности, читаемости кода и актуальности документации. Особенностью является использование Pareto-оптимизации, позволяющей находить компромиссы между конфликтующими целями.
Критически важным является механизм контролируемой эволюции. Система поддерживает "безопасные зоны" изменений, где критические компоненты могут эволюционировать только при наличии полного покрытия тестами и утверждения со стороны человека-оператора. Для поддержания семантической корректности используется продвинутая система формальной верификации и property-based тестирования, что позволяет детектировать нарушения неявных контрактов системы.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Экспериментальная валидация EvoGraph проводилась на трех ключевых бенчмарках, каждый из которых адресует критически важные аспекты современной
Annotation:
We introduce **EvoGraph**, a framework that enables software systems to
evolve their own source code, build pipelines, documentation, and tickets.
EvoGraph represents every artefact in a typed directed graph, applies learned
mutation operators driven by specialized small language models (SLMs), and
selects survivors with a multi-objective fitness. On three benchmarks, EvoGraph
fixes 83% of known security vulnerabilities, translates COBOL to Java with 93%
functional equivalence (test verified), a...