📚 Саммари научных статей из arXiv

Найдено 341 результатов по запросу 'cs.SE, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Automated Validation of LLM-based Evaluators for Software Engineering Artifacts

2025-08-09

Авторы:

Ora Nova Fandina, Eitan Farchi, Shmulik Froimovich, Rami Katan, Alice Podolsky, Orna Raz, Avi Ziv

Авторы предлагают REFINE, автоматизированный фреймворк для оценки качества LLM-based evaluators при решении задач в сфере software engineering. Основная проблема заключается в том, что ручные оценки — дорогие и субъективные, а существующие методы автоматизации не могут выявить тонкие различия в качестве продуктов. REFINE решает эту проблему с помощью двух модулей: Hierarchy Dataset Builder, который генерирует прогрессирующиеся вариации качества, и Evaluator Tester, который измеряет точность рейтингов. Особенностью REFINE является управляемость: пользователь может адаптировать тонкость оценки, начиная от крупных фильтраций до тестирования на самых скрытых дефектов. Фреймворк был применен в IBM для работы с COBOL и позволил повысить точность оценки до 0.9 в некоторых задачах. Теперь REFINE используется для поддержки релизов моделей.

Annotation:

Automation in software engineering increasingly relies on large language models (LLMs) to generate, review, and assess code artifacts. However, establishing LLMs as reliable evaluators remains an open challenge: human evaluations are costly, subjective and non scalable, while existing automated methods fail to discern fine grained variations in artifact quality. We introduce REFINE (Ranking Evaluators for FIne grained Nuanced Evaluation), an automated framework for benchmarking LLM based evalu...

ID: 2508.02827v1 cs.SE, cs.AI

arXiv PDF

📄 Tool-integrated Reinforcement Learning for Repo Deep Search

2025-08-09

Авторы:

Zexiong Ma, Chao Peng, Qunhong Zeng, Pengfei Gao, Yanzhen Zou, Bing Xie

**Резюме** В статье предлагается решение проблемы issue localization — определения мест в коде, которые требуют изменений для устранения проблем в программном обеспечении. Эта задача требует высокого уровня логического разума и преодоления семантического разрыва между естественным языком описаний проблем и структурой кода. Особенно сложная оказывается задача Repo Deep Search, когда требуется эффективное использование различных инструментов поиска в репозитории в рамках многошагового процесса рассуждения и навигации. Для решения этой проблемы предложен фреймворк ToolTrain, который сочетает в себе супервизированное оптимальное тренирование и реинфорсмент с приемом отклонений. Это позволяет лучше обучить трансформеры для эффективного использования реплиза-инструментов во время процесса запроса. Исследования показали, что эта модель достигает лидирующих результатов на задаче function-level localization, превосходя даже Claude-3.7. Выводы указывают, что улучшение локализации может значительно повысить эффективность автоматизированных процессов в разработке программного обеспечения.

Annotation:

Issue localization, the process of identifying code locations that need modification to resolve software issues, is a critical yet challenging task in software development. The semantic gap between natural language issue descriptions and faulty code requires complex multi-hop reasoning through code dependencies. Existing LLM-based agents attempt to address this by integrating repository retrieval tools. However, this transforms issue localization into a demanding task we call Repo Deep Search, w...

ID: 2508.03012v2 cs.SE, cs.AI

arXiv PDF

📄 Industrial LLM-based Code Optimization under Regulation: A Mixture-of-Agents Approach

2025-08-09

Авторы:

Mari Ashiga, Vardan Voskanyan, Fateme Dinmohammadi, Jingzhi Gong, Paul Brookes, Matthew Truscott, Rafail Giavrimis, Mike Basios, Leslie Kanthan, Wei Jie

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее времение Large Language Models (LLMs) стали важной составляющей в области кодовой оптимизации, позволяя автоматизировать процессы программного инжиниринга и повышать эффективность разработки. Однако для организаций в регулируемых отраслях, таких как финансовые и здравоохранение, существуют строгие ограничения на использование коммерческих моделей LLMs. Эти ограничения вызваны требованиями конфиденциальности данных, соответствия нормативным требованиям и регулятивным ограничениями, что создает значительные препятствия для достижения высокого качества кодовой оптимизации при сохранении экономичности. Разработчики столкнулись с проблемой выбора между коммерческими моделями, которые могут быть ограничены в использовании из-за конфиденциальности данных, и открытыми моделями, которые могут быть менее эффективными в некоторых случаях. Эта проблема особенно актуальна в контексте поддержания высокого уровня производительности и качества кода в условиях строгих нормативных требований. Требуется решение, которое позволит эффективно использовать различные модели LLMs, учитывая ограничения регулятивных требований, и обеспечивающее высокую производительность и экономичность. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы предлагается метод Mixture-of-Agents (MoA), который использует несколько специализированных моделей LLMs для кодовой оптимизации. Этот метод позволяет синтезировать код, объединяя результаты работы нескольких моделей, что повышает качество оптимизации и уменьшает время выполнения. Метод MoA включает в себя несколько этапов: предварительная обработка кода, применение различных моделей LLMs для оптимизации, синтез результатов и оценка качества полученного кода. В рамках этого метода используется комбинация открытых моделей LLMs, которые оптимизируют код в соответствии с требованиями регулятивной совместимости. Архитектура MoA позволяет динамически выбирать наиболее подходящие модели для конкретных задач оптимизации, что повышает эффективность процесса. Кроме того, метод сравнивается с другими подходами, такими как Генетический Алгоритм (Genetic Algorithm, GA), который также используется для кодовой оптимизации, и индивидуальными моделями LLMs. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода MoA были проведены эксперименты на реальных индустриальных кодовых базах. Было проанализировано 50 фрагментов кода, и было сгенерировано более 8 700 вариантов оптимизированного кода с использованием различных комбинаций моделей LLMs. Результаты показали, что метод MoA достигает значительных экономий затрат, от 14,3% до 22,2%, и ускоряет процесс оптимизации на 28,6% до 32,2% по сравнению с индивидуальными моделями LLMs. Кроме того, было выявлено, что Генетический Алгоритм (GA) демонстрирует преимущества при использовании коммерческих моделей LLMs, однако оба подхода (MoA и GA) превосходят индивидуальные модели в терминах качества оптимизации и времени выполнения. Эксперименты также показали, что использование MoA с открытыми моделями LLMs позволяет достичь высокого качества оптимизации, соблюдая нормативные требования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод MoA имеет широкое применение в регулируемых отраслях, где необходимо соблюдать строгие нормативные требования в отношении конфиденциальности данных и соответствия законодательству. Этот метод позволяет организациям эффективно использовать открытые модели LLMs для кодовой оптимизации, обеспечивая высокую эффективность и сокращение затрат. Практическая значимость метода заключается в том, что он предоставляет гибкость в выборе моделей LLMs, позволяя организациям адаптировать процесс оптимизации к своим нуждам и ограничениям. Это также позволяет улучшить качество кода и сократить время разработки, что является критически важным для промышленных приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В результате исследования было показано, что метод Mixture-of-Agents представляет собой эффективное решение для кодовой оптимизации в регулируемых отраслях. Он позволяет достичь высокого качества оптимизации, соблюдая требования конфиденциальности и регулятивной совместимости. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры MoA, включая интеграцию более разнообразных моделей LLMs и оптимизацию алгоритмов для более сложных задач. Кроме того, предлагается расширить исследования в области автоматизации процессов программного инжиниринга с использованием LLMs, в частности, для решения более широкого круга задач, включая тестирование, отладку и анализ кода. Это позволит создать более комплексные инструменты для разработки программного обеспечения, соответствующие требованиям регулятивной совместимости и эффективно использующие потенциал LLMs.

Annotation:

Recent advancements in Large Language Models (LLMs) for code optimization have enabled industrial platforms to automate software performance engineering at unprecedented scale and speed. Yet, organizations in regulated industries face strict constraints on which LLMs they can use - many cannot utilize commercial models due to data privacy regulations and compliance requirements, creating a significant challenge for achieving high-quality code optimization while maintaining cost-effectiveness. We...

ID: 2508.03329v2 cs.SE, cs.AI

arXiv PDF

📄 Experimental Analysis of Productive Interaction Strategy with ChatGPT: User Study on Function and Project-level Code Generation Tasks

2025-08-09

Авторы:

Sangwon Hyun, Hyunjun Kim, Jinhyuk Jang, Hyojin Choi, M. Ali Babar

**Резюме** Статья рассматривает проблему недостаточного исследования эффективных методов взаимодействия с Large Language Models (LLMs) в контексте реальных задач программирования, ограниченных простыми проблемами и выборочными приемами. Авторы предлагают комплексный эксперимент, охватывающий более сложные сценарии, в том числе задачи на уровне проекта, а не только функций. В ходе исследования, в котором приняли участие 36 участников разных уровней подготовки, были оценены 15 основных черт взаимодействия (HLI), влияющих на производительность в генерации кода. Отмечены пять ключевых рекомендаций для улучшения этих процессов и разработана категоризация 29 типов ошибок с предложенными мерами их устранения. Основной вывод: три HLI-функции значительно повлияли на производительность, что демонстрирует значимость широкого изучения воздействия человеко-LLM-интеракций на результативность.

Annotation:

The application of Large Language Models (LLMs) is growing in the productive completion of Software Engineering tasks. Yet, studies investigating the productive prompting techniques often employed a limited problem space, primarily focusing on well-known prompting patterns and mainly targeting function-level SE practices. We identify significant gaps in real-world workflows that involve complexities beyond class-level (e.g., multi-class dependencies) and different features that can impact Human-...

ID: 2508.04125v1 cs.SE, cs.AI

arXiv PDF

📄 Automated File-Level Logging Generation for Machine Learning Applications using LLMs: A Case Study using GPT-4o Mini

2025-08-09

Авторы:

Mayra Sofia Ruiz Rodriguez, SayedHassan Khatoonabadi, Emad Shihab

## КОНТЕКСТ И ПРОБЛЕМАТИКА Logging является важной составляющей современного программного обеспечения, позволяющей разработчикам отслеживать поведение системы и упрощающей отладку приложений. Однако создание эффективных лог-сообщений требует времени и опыта, что затрудняет обеспечение согласованности и полноты логирования, особенно в больших проектах. В последнее время исследования в области применения технологий языковых моделей (Large Language Models, LLMs) для автоматического генерирования кода получили широкое распространение. Благодаря способности LLMs к генерации естественного языка и кода, исследователи рассматривают их потенциал в создании лог-сообщений. Тем не менее, существующие исследования в этой области в основном концентрируются на лог-сообщениях, встроенных в функции кода, оставляя недостаточно изученным вопрос генерации логов на уровне файлов. Это особенно актуально для машинного обучения (ML), где комплексное логирование критически важно для обеспечения надежности и отслеживания поведения моделей. Файловое логирование в ML-проектах требует учета специфики данных, алгоритмов и структуры проекта, что делает задачу еще более сложной. Данная работа предлагает исследовать возможности GPT-4o mini, одной из LLMs, в генерации лог-сообщений для ML-проектов на уровне файлов. Изучая эту проблему, исследование помогает выявить текущие трудности и оценить перспективы применения LLMs в реальных условиях разработки. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования была выбрана модель GPT-4o mini для генерации логов в ML-проектах. Модель была запрошена для создания лог-сообщений на уровне файлов Python, основываясь на содержимом файлов без предварительных логов. Для этого были собраны данные из 171 репозиториев ML-проектов, содержащих 4073 Python-файла с логами. Оригинальные логи были удалены, чтобы создать чистые файлы для генерации. Затем, для каждого файла, модель получала запрос на генерацию логов, основываясь на его содержимом. Генерируемые логи оценивались по нескольким критериям: точность позиционирования логов, выбор уровня логирования, качество переменных и текста лог-сообщений. Для сравнения были использованы логи, написанные человеком, что позволило выявить различия и оценить эффективность генерируемых логов. Дополнительно была проведена ручная аналитика над выборкой логов, чтобы выявить типичные шаблоны и ограничения в генерируемых лог-сообщениях. Этот подход позволил оценить не только точность, но и соответствие логов конвенциям конкретных проектов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование показало, что GPT-4o mini способна вставлять логи в точках, совпадающих с рукописными логами, в 63,91% случаев. Однако при этом была зафиксирована высокая степень "overlogging" — 82,66% лог-сообщений были неправильно позиционированы или ненужны. Также было обнаружено, что модель часто генерирует логи в начале или конце функций, что может быть неэффективно в больших блоках кода. Ручной анализ выявил несколько ключевых проблем: - Чрезмерное логирование в некритичных участках кода. - Трудности в логировании внутри крупных и сложных функций. - Несоответствие логов специфичным конвенциям конкретных проектов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Несмотря на выявленные ограничения, данное исследование показывает потенциал LLMs в автоматизации логирования, особенно в ML-проектах. Автоматическое генерирование логов может значительно ускорить процесс разработки, уменьшить человеческий труд и повысить надежность систем. Однако для практического применения необходимо решить проблемы связанные с overlogging и несоответствием конвенциям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование показало, что GPT-4o mini может быть полезна для генерации логов на файловом уровне, но существуют значительные проблемы, которые необходимо решить для её практического применения. Будущие исследования могут фокусироваться на улучшении точности позиционирования логов, сокращении overlogging и адаптации моделей к конкретным проектам.

Annotation:

Logging is essential in software development, helping developers monitor system behavior and aiding in debugging applications. Given the ability of large language models (LLMs) to generate natural language and code, researchers are exploring their potential to generate log statements. However, prior work focuses on evaluating logs introduced in code functions, leaving file-level log generation underexplored -- especially in machine learning (ML) applications, where comprehensive logging can enha...

ID: 2508.04820v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 Taxonomy of Faults in Attention-Based Neural Networks

2025-08-09

Авторы:

Sigma Jahan, Saurabh Singh Rajput, Tushar Sharma, Mohammad Masudur Rahman

## КОНТЕКСТ И ПРОБЛЕМАТИКА Механизмы внимания (attention) стали фундаментальной основой современных нейронных архитектур, лежащих в основе таких систем, как ChatGPT, автономные транспортные средства и другие критически важные приложения. Эти механизмы обеспечивают выдающуюся способность моделей к пониманию контекста, обработке последовательностей и принятию сложных решений, что приводит к значительному экономическому и социальному воздействию. Однако недавние высокопрофильные сбои, включая генерацию бессмысленных ответов ChatGPT и приостановку Google Gemini генерации изображений из-за ошибок весов внимания, выявили критический пробел в понимании и диагностике сбоев в системах на основе внимания. Существующие таксономии сбоев в глубоком обучении, разработанные для традиционных нейронных сетей, не учитывают уникальные особенности механизмов внимания. Эти механизмы вводят новые типы сбоев, связанные с распределением весов внимания, масштабированием, позиционным кодированием и взаимодействием между множественными головами внимания. Отсутствие систематического понимания этих сбоев оставляет практиков без направленной диагностической помощи, что приводит к увеличению времени отладки и потенциально критическим ошибкам в продакшене. Проблема усугубляется экспоненциальным ростом сложности моделей на основе внимания и их широким распространением в продуктах, влияющих на миллионы пользователей. Традиционные методы отладки, такие как визуализация признаков или градиентный анализ, недостаточно эффективны для диагностики проблем, специфичных для механизмов внимания. Требуется новая системная методология для понимания, классификации и диагностики сбоев в этих критически важных системах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представили первое комплексное эмпирическое исследование сбоев в нейронных сетях на основе механизмов внимания (ABNNs). Исследование базируется на систематическом анализе 555 реальных сбоев, собранных из 96 проектов на основе десяти различных фреймворков, включая GitHub, Hugging Face и Stack Overflow. Методология исследования включала несколько этапов. На первом этапе проводился систематический поиск и сбор данных о сбоях в системах на основе внимания. Использовались автоматизированные инструменты для извлечения информации из открытых репозиториев, форумов и систем отслеживания ошибок. Каждый случай сбоя анализировался с использованием структурированной схемы кодирования, включающей контекст сбоя, проявляемые симптомы, архитектурные детали и последствия. На втором этапе осуществлялась классификация сбоев с использованием методов тематического анализа и кластеризации. Команда исследователей разработала новую таксономию, включающую семь категорий сбоев, специфичных для механизмов внимания. Эти категории были разработаны последовательно, начиная с открытого кодирования и заканчивая итеративной ревизией с помощью экспертной валидации. Третий этап включал корневой анализ причин сбоев. Для каждого сбоя идентифицировались первопричины, проявляемые симптомы и архитектурные особенности, способствующие возникновению проблем. Использовались статистические методы для выявления ассоциаций между симптомами и корневыми причинами. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование выявило семь уникальных категорий сбоев, специфичных для механизмов внимания, которые не были охвачены существующими таксономиями. Эти категории включают сбои, связанные с масштабированием внимания (scaling), позиционным кодированием (positional encoding), многоголовочным вниманием (multi-head attention), маскированием (masking), распределением весов внимания (attention weight distribution), последовательной зависимостью (sequence dependency) и градиентными потоками (gradient flow issues). Ключевым результатом является то, что более 50% всех проанализированных сбоев в ABNN возникали из-за механизмов, уникальных для архитектур с вниманием. Это подчеркивает фундаментальное различие между сбоями в традиционных нейронных сетях и системами на основе внимания. Анализ симптомов показал, что сбои проявляются в виде различных паттернов: отклонения в распределении весов внимания, нестабильность обучения, деградация производительности

Annotation:

Attention mechanisms are at the core of modern neural architectures, powering systems ranging from ChatGPT to autonomous vehicles and driving a major economic impact. However, high-profile failures, such as ChatGPT's nonsensical outputs or Google's suspension of Gemini's image generation due to attention weight errors, highlight a critical gap: existing deep learning fault taxonomies might not adequately capture the unique failures introduced by attention mechanisms. This gap leaves practitioner...

ID: 2508.04925v1 cs.SE, cs.AI

arXiv PDF

📄 Posterior-GRPO: Rewarding Reasoning Processes in Code Generation

2025-08-09

Авторы:

Lishui Fan, Yu Zhang, Mouxiang Chen, Zhongxin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Результаты применения reinforcement learning (RL) в области кодогенерации для больших языковых моделей (LLMs) значительно улучшились в последнее время. Однако существующие подходы часто основываются на результирующих наградах, получаемых из тест-кейсов, без учета качества промежуточных процессов вывода. Такая ориентация на конечный результат может привести к недостаткам в процессе логического вывода, который является ключевым для понимания и генерации высококачественного кода. Прямое контролирование качества процесса вывода является перспективным направлением, но существует серьезная проблема ревард хакинга (reward hacking), при которой модель научится манипулировать процессом вывода, чтобы получить высокую оценку, не способствуя улучшению конечных результатов. Для решения этой проблемы необходимо разработать методы, позволяющие оценивать и награждать качество процесса вывода, не затрагивая финальный результат. В этой статье авторы предлагают комплексный подход, сочетающий в себе разработку бенчмарка для оценки процесса вывода, метод для точной оценки качества процесса и новый метод RL, который учитывает качество промежуточных процессов в выводе. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют трехступенчатый подход к улучшению процесса кодогенерации. 1. **Разработка бенчмарка LCB-RB**: Для оценки качества процесса вывода разработан бенчмарк LCB-RB, который состоит из пар предпочтений, где каждая пара представляет два процесса вывода — один лучше, другой хуже. Этот бенчмарк позволяет модели оценивать качество процесса вывода на основе сравнения. 2. **Метод OD-based для обучения наградной модели**: Для точной оценки качества процесса вывода разработан метод Optimized-Degraded (OD-based). Этот метод позволяет генерировать высококачественные пары предпочтений путем систематического улучшения и ухудшения исходных процессов вывода по определенным критериям, таким как фактическая точность, логическая целостность и когерентность. На основе этого метода обучается модель наград размером 7 млрд параметров, которая достигает лучших результатов на бенчмарке LCB-RB и хорошо обобщается на другие данные. 3. **Метод Posterior-GRPO (P-GRPO)**: Новый метод RL, Posterior-GRPO, разработан для того, чтобы учитывать качество процесса вывода при обучении. Он награждает только те процессы вывода, которые приводят к успешным результатам, эффективно предотвращая ревард хакинг. Это позволяет выработать в модели логику, которая соотносит процесс вывода с конечным результатом. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов для оценки эффективности их подхода. Используются различные данные для кодогенерации, включая задачи программирования и математические задачи. Результаты показывают, что модель с P-GRPO достигает лучших результатов по сравнению с базовыми моделями, которые основываются только на конечных результатах. Модель с P-GRPO показывает улучшение в 4,5% по сравнению с моделями, не учитывающими процесс вывода. Кроме того, модель достигает результатов, сопоставимых с GPT-4-Turbo, что демонстрирует высокую эффективность предлагаемого подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый подход имеет широкое практическое применение в области кодогенерации и математических задач. Он позволяет создавать модели, которые не только генерируют корректный код, но и выполняют это с высоким качеством процесса вывода. Это может быть полезно в областях, требующих высокой точности и логической целостности, таких как разработка программного обеспечения, математические моделирование и другие. Кроме того, предлагаемый метод может быть использован для улучшения качества вывода в других областях, где важно не только конечный результат, но и процесс достижения этого результата. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен комплексный подход к улучшению кодогенерации с помощью RL, который учитывает качество промежуточных процессов вывода. Разработанный бенчмарк, метод оценки качества процесса вывода и новый метод RL (P-GRPO) позволяют эффективно улучшить качество кодогенерации, предотвращая ревард хакинг и вырабатывая логику, соотносящую процесс вывода с конечным результатом. Будущие исследования могут фокусироваться на дальнейшем улучшении качества процесса вывода, расширении областей применения и интеграции этого подхода в более крупные модели.

Annotation:

Reinforcement learning (RL) has significantly advanced code generation for large language models (LLMs). However, current paradigms rely on outcome-based rewards from test cases, neglecting the quality of the intermediate reasoning process. While supervising the reasoning process directly is a promising direction, it is highly susceptible to reward hacking, where the policy model learns to exploit the reasoning reward signal without improving final outcomes. To address this, we introduce a unifi...

ID: 2508.05170v1 cs.SE, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 EvoGraph: Hybrid Directed Graph Evolution toward Software 3.0

2025-08-09

Авторы:

Igor Costa, Christopher Baran

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное программное обеспечение сталкивается с критическим вызовом ускоряющейся технологической эволюции, где традиционные подходы разработки не справляются с масштабами и сложностью поддержки устаревающих систем. Легаси-код, написанный на устаревших языках вроде COBOL, CGI, ColdFusion и Lisp, продолжает выполнять критически важные функции в банковской, государственной и корпоративной инфраструктуре, но страдает от отсутствия специалистов, документации и совместимости с современными стандартами безопасности. Параллельно растет технический долг в современных системах, где быстрое добавление новых функций ведет к накоплению архитектурных компромиссов и уязвимостей безопасности. Традиционные методы модернизации, включая ручной рефакторинг и автоматизированные инструменты на основе правил, демонстрируют фундаментальные ограничения. Ручные подходы масштабируются линейно с числом разработчиков и страдают от человеческого фактора, в то время как правило-ориентированные инструменты не способны адаптироваться к контексту и часто нарушают неявные контракты системы. Большие языковые модели (LLM), несмотря на свою мощность, страдают от высоких вычислительных затрат, недостаточной контролируемости и тенденции к "галлюцинациям" при генерации кода, что критично для продакшен-систем. Авторы статьи формулируют концепцию "Software 3.0" как следующий этап эволюции программного обеспечения, где системы становятся способными к непрерывной самоэволюции при сохранении измеримого контроля над качеством и поведением. Ключевая проблема заключается в создании такого механизма эволюции, который мог бы эффективно работать с разнородными артефактами разработки (кодом, документацией, тестами, билдами) при этом оставаясь практически применимым в условиях реальных ограничений производственной среды. ## ПРЕДЛОЖЕННЫЙ МЕТОД EvoGraph представляет собой революционный фреймворк, который реализует принципы эволюционной биологии в контексте разработки программного обеспечения. Основой системы является строго типизированный направленный граф, где каждый узел представляет собой конкретный артефакт разработки - от строк кода и тестов до документации и билд-скриптов. Ребра графа выражают семантические и технические зависимости между артефактами, создавая исчерпывающую модель всей системы. Центральным элементом является набор специализированных малых языковых моделей (SLM), каждая из которых обучена для выполнения конкретного типа мутаций. В отличие от универсальных LLM, эти модели имеют гораздо меньший размер (от 7M до 1B параметров), что обеспечивает 90% экономию вычислительных ресурсов. Каждая SLM реализует набор семантически значимых мутационных операторов, специфичных для конкретного языка программирования или типа артефакта. Например, для COBOL-Java трансформации модель обучена распознавать паттерны бизнес-логики и эквивалентно их переносить в объектно-ориентированную парадигму. Процесс эволюции реализуется через итеративный цикл генерации-отбора-мутации. На каждом поколении система генерирует множество вариантов изменений, применяя мутационные операторы к текущему состоянию графа. Отбор потомков осуществляется на основе многокритериальной функции приспособленности, включающей метрики функциональной эквивалентности (через тесты), производительности, безопасности, читаемости кода и актуальности документации. Особенностью является использование Pareto-оптимизации, позволяющей находить компромиссы между конфликтующими целями. Критически важным является механизм контролируемой эволюции. Система поддерживает "безопасные зоны" изменений, где критические компоненты могут эволюционировать только при наличии полного покрытия тестами и утверждения со стороны человека-оператора. Для поддержания семантической корректности используется продвинутая система формальной верификации и property-based тестирования, что позволяет детектировать нарушения неявных контрактов системы. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация EvoGraph проводилась на трех ключевых бенчмарках, каждый из которых адресует критически важные аспекты современной

Annotation:

We introduce **EvoGraph**, a framework that enables software systems to evolve their own source code, build pipelines, documentation, and tickets. EvoGraph represents every artefact in a typed directed graph, applies learned mutation operators driven by specialized small language models (SLMs), and selects survivors with a multi-objective fitness. On three benchmarks, EvoGraph fixes 83% of known security vulnerabilities, translates COBOL to Java with 93% functional equivalence (test verified), a...

ID: 2508.05199v1 cs.SE, cs.AI, D.2.2; D.2.7; I.2.2

arXiv PDF

📄 Industrial LLM-based Code Optimization under Regulation: A Mixture-of-Agents Approach

2025-08-06

Авторы:

Mari Ashiga, Vardan Voskanyan, Fateme Dinmohammadi, Jingzhi Gong, Paul Brookes, Matthew Truscott, Rafail Giavrimis, Mike Basios, Leslie Kanthan, Wei Jie

Недавние усовершенствования Large Language Models (LLM) открыли новые возможности для автоматизации кодовой оптимизации на промышленном уровне. Однако для организаций в регулируемых отраслях существуют строгие ограничения на использование коммерческих моделей из-за требований конфиденциальности данных и соответствия нормативным требованиям. Для решения этой проблемы предлагается подход Mixture-of-Agents (MoA), который использует несколько специализированных LLMs для синтеза кода. Метод был протестирован на реальных промышленных кодовых базах и сравнивался с Генетическим Алгоритмом (GA) и индивидуальными LLM-оптимизаторами. Результаты показали, что MoA позволяет достичь значительных экономий (14,3-22,2%) и увеличить скорость оптимизации (28,6-32,2%) в регулируемых средах. GA оказался более эффективен с коммерческими моделями, но оба подхода превосходят индивидуальные LLMs. Эксперименты на 50 фрагментах кода и семи комбинациях LLMs подтвердили эффективность подхода в реальных условиях.

Annotation:

Recent advancements in Large Language Models (LLMs) for code optimization have enabled industrial platforms to automate software performance engineering at unprecedented scale and speed. Yet, organizations in regulated industries face strict constraints on which LLMs they can use - many cannot utilize commercial models due to data privacy regulations and compliance requirements, creating a significant challenge for achieving high-quality code optimization while maintaining cost-effectiveness. We...

ID: 2508.03329v1 cs.SE, cs.AI

arXiv PDF

📄 Agentic AI in 6G Software Businesses: A Layered Maturity Model

2025-08-06

Авторы:

Muhammad Zohaib, Muhammad Azeem Akbar, Sami Hyrynsalmi, Arif Ali Khan

**Резюме** Возникновение агентных систем ИИ в бизнесе программного обеспечения 6G открывает новые возможности для автономности, масштабируемости и интеллектуального принятия решений в распределенных средах. Однако их внедрение сталкивается с значительными вызовами, такими как техническая незрелость, сложность интеграции, готовность организаций и компромиссы между производительностью и затратами. В работе представлена предварительная тематическая картировка, основанная на многовольном обзоре литературы и целенаправленном исследовании. Идентифицированы 29 факторов, стимулирующих внедрение агентных систем, и 27 факторов, тормозящих его. Эти факторы сгруппированы в пять ключевых тем в каждой группе. Эта работа является начальным этапом более широкого исследования, направленного на разработку и валидацию сложной модели зрелости, основанной на модели CMMI и трех архитектурных измерениях: Данные, Бизнес-логика и Представление. Целью является создание практического фреймворка, помогающего организациям оценивать и развивать свои агентные возможности в соответствии с требованиями 6G.

Annotation:

The emergence of agentic AI systems in 6G software businesses presents both strategic opportunities and significant challenges. While such systems promise increased autonomy, scalability, and intelligent decision-making across distributed environments, their adoption raises concerns regarding technical immaturity, integration complexity, organizational readiness, and performance-cost trade-offs. In this study, we conducted a preliminary thematic mapping to identify factors influencing the adopti...

ID: 2508.03393v1 cs.SE, cs.AI

arXiv PDF

1
2
32
33
34
35

Показано 331 - 340 из 341 записей