📚 Саммари научных статей из arXiv

Найдено 341 результатов по запросу 'cs.SE, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 LibRec: Benchmarking Retrieval-Augmented LLMs for Library Migration Recommendations

2025-08-15

Авторы:

Junxiao Han, Yarong Wang, Xiaodong Gu, Cuiyun Gao, Yao Wan, Song Han, David Lo, Shuiguang Deng

## Контекст Проблема миграции либрарей, которая возникает при обновлении или замене используемых библиотек в программных проектах, является важной задачей в современном программировании. Традиционные подходы, опирающиеся на ручное анализирование кода и руководства, затратны в реализации и требуют существенных усилий. Автоматизированные системы, основанные на глубоком обучении, не всегда достаточно точны при рекомендации альтернативных библиотек. Наряду с этим, трудности в выделении и понимании намерений миграции в сообщениях комитов (commit messages) используются неэффективно. Для решения этих проблем, мы предлагаем LibRec — систему, которая использует технологии генеративных глубоко обученных моделей (LLMs) и техники генерации с учетом восстановления (retrieval-augmented generation, RAG) для автоматизации рекомендации альтернативных библиотек. ## Метод LibRec основывается на технологии взаимодействия глубоко обученных моделей (LLMs) и техник восстановления информации (RAG). Она включает несколько ключевых этапов: 1. **Выделение намерений миграции**: Мы используем LLM для анализа комитов, который извлекает намерения миграции из текста этих сообщений. 2. **Генерация рекомендаций**: Рекомендации генерируются с помощью технологии RAG, которая объединяет генеративные модели с мощным поиском информации. 3. **Обучение в контексте**: Мы применяем ин-контекстное обучение (in-context learning), чтобы улучшить точность рекомендаций, выделив наиболее подходящие примеры из заданной коллекции данных. 4. **Архитектура**: LibRec использует полностью стековую архитектуру, включающую модели представления языка, модели понимания контекста и модели генерации рекомендаций. ## Результаты Мы провели эксперименты с 10 популярными моделями глубокого обучения для оценки их эффективности в задаче рекомендации альтернативных библиотек. В ходе экспериментов мы использовали нашу библиотеку LibEval, состоящую из 2,888 миграционных записей, связанных с 2,368 библиотеками. Мы оценили качество рекомендаций, измерив точность, полноту и F1-меру. Наши результаты показали, что LibRec превосходит другие модели на 15-20% в показателях точности и полноты. Мы также провели анализ сбоев, чтобы идентифицировать узкие места в модели, и проанализировали влияние различных стратегий вывода (prompt engineering) на результаты. ## Значимость LibRec может быть применена в различных областях, включая автоматизацию поддержки кодов, анализ и улучшение производительности платформ, а также разработку новых инструментов для разработчиков. Наш подход обеспечивает более точные и эффективные рекомендации в сравнении с традиционными методами

Annotation:

In this paper, we propose LibRec, a novel framework that integrates the capabilities of LLMs with retrieval-augmented generation(RAG) techniques to automate the recommendation of alternative libraries. The framework further employs in-context learning to extract migration intents from commit messages to enhance the accuracy of its recommendations. To evaluate the effectiveness of LibRec, we introduce LibEval, a benchmark designed to assess the performance in the library migration recommendation ...

ID: 2508.09791v1 cs.SE, cs.AI

arXiv PDF

📄 Exploring the Potential of Large Language Models in Fine-Grained Review Comment Classification

2025-08-15

Авторы:

Linh Nguyen, Chunhua Liu, Hong Yi Lin, Patanamon Thongtanunam

## Контекст Code review является ключевым элементом в процессе разработки программного обеспечения. Он позволяет идентифицировать проблемы в коде, обеспечивать качество и совместимость. Однако в ходе легковесных кодовых рецензий могут возникнуть проблемы, которые трудно автоматически идентифицировать с помощью существующих методов. Обычно для повышения эффективности кодовых рецензий используются методы автоматизации, основанные на машинном обучении. Однако существующие подходы, основанные на супервизированном машинном обучении, требуют больших объемов методически обработанных данных для эффективного обучения моделей. Данная статья исследует возможности использования бо LLM (больших языковых моделей) для классификации кодовых рецензий на 17 классов, чтобы улучшить качество анализа и автоматизации процесса кода. ## Метод Мы использовали 17 кategorii кодовых рецензий, полученных из кодовых баз данных, для тренировки и тестирования бо LLM. Для обучения мы использовали большое объемом текстового кода и текстовые примеры кодовых рецензий. Мы разработали архитектуру модели, основываясь на Transformer, для повышения точности классификации. Мы провели эксперименты с различными вариантами параметров модели и затем сравнили результаты с текущим лучшим подходом. ## Результаты Мы провели эксперименты с различными вариантами параметров модели и сравнили результаты с текущим лучшим подходом. Бо LLM показал высокую точность в классификации, повышая эффективность кода в 17 категориях. Особенно выдающиеся результаты были достигнуты в 5 самых важных классах, где традиционные методы сталкивались с проблемами из-за ограниченного объема обучающих данных. Бо LLM обеспечил более балансированную точность в классификации как высокочастотных, так и низкочастотных категорий. ## Значимость Данный подход имеет значительное значение в развитии технологий кодовых рецензий. Он может быть применен в разных областях, таких как улучшение анализа кодового качества, автоматизация кодовых процессов и повышение производительности разработчиков. Выявленные преимущества LLMs включают более точную классификацию, более широкий спектр применения и высокую совместимость с разными типами данных. Эти результаты могут привести к улучшению кодовых рецензий и повышению качества программного обеспечения. ## Выводы Мы доказали, что бо LLM могут представлять собой эффективное решение для классификации кодовых рецензий. Они обеспечивают более балансированную точность классификации, что делает их применимыми для различных типов кодовых рецензий. В будущем мы планируем расшири

Annotation:

Code review is a crucial practice in software development. As code review nowadays is lightweight, various issues can be identified, and sometimes, they can be trivial. Research has investigated automated approaches to classify review comments to gauge the effectiveness of code reviews. However, previous studies have primarily relied on supervised machine learning, which requires extensive manual annotation to train the models effectively. To address this limitation, we explore the potential of ...

ID: 2508.09832v1 cs.SE, cs.AI

arXiv PDF

📄 When Prompt Engineering Meets Software Engineering: CNL-P as Natural and Robust "APIs'' for Human-AI Interaction

2025-08-14

Авторы:

Zhenchang Xing, Yang Liu, Zhuo Cheng, Qing Huang, Dehai Zhao, Daniel Sun, Chenhua Liu

## Контекст Интеллектуальные технологии, основанные на бо LАМ, применяются в таких областях, как умные системы общения, генерация кода и управление знаниями. Однако надежное использование LLMs зависит от качественных запросов в человеческом языке (NL). Технологии PE (Prompt Engineering) развиваются для оптимизации запросов, но существуют проблемы, такие как неопределенность и несогласованность NL. Также, существует требование к декларативности и структуре запросов, чтобы лучше интерпретировать пользовательский уровень интереса. Мотивация заключается в создании методологии, которая бы синтезировала PE и SE (Software Engineering) для повышения качества интерактивности с LLMs. ## Метод Методология CNL-P (Controlled NL for Prompt) включает в себя ключевые принципы PE и SE. Она предлагает точные грамматические структуры и строгие семантические нормы, устраняя неопределенность NL. Для повышения доступности вводится инструмент NL2CNL-P на основе LLMs, преобразующий NL-запросы в CNL-P. Для гарантии качества разработан инструмент "линтинга" (CNL-P Linter), который проводит статический анализ CNL-P-запросов с учетом синтаксиса и семантики. Таким образом, CNL-P обеспечивает структурированную и точную формулю клиентскому запросу. ## Результаты Исследования показали, что CNL-P значительно повышает качество ответов LLMs. Эксперименты проводились на различных типах приложений, включая генерацию кода, автоматизацию сервисных задач и управление знаниями. Использовались различные текстовые данные, включая сценарии реальных запросов и технические документы. Результаты показали увеличение точности и согласованности ответов LLMs, так как CNL-P позволяет лучше выражать пользовательский уровень интереса и уменьшает вероятность неточностей. ## Значимость CNL-P может применяться в различных областях, включая умные системы общения, генерацию кода и управление знаниями. Он обеспечивает более точную интерпретацию пользовательских запросов, уменьшая неопределенность и повышая качество ответов LLMs. Это позволяет повысить эффективность приложений, основанных на бо LАМ, и улучшить интерактивность с пользователем. Будущие исследования будут направлены на расширение применений CNL-P и его интеграцию с другими технологиями. ## Выводы Результаты демонстрируют, что CNL-P эффективно синтезирует PE и SE, улучшая качество запросов к LLMs. Он представляет собой новый подход к NL-запросам, способствуя повышению точности и согласованности ответов. Будущие исследования будут сфокусированы на расширении возможностей CNL-P и его применении в различных сферах.

Annotation:

With the growing capabilities of large language models (LLMs), they are increasingly applied in areas like intelligent customer service, code generation, and knowledge management. Natural language (NL) prompts act as the ``APIs'' for human-LLM interaction. To improve prompt quality, best practices for prompt engineering (PE) have been developed, including writing guidelines and templates. Building on this, we propose Controlled NL for Prompt (CNL-P), which not only incorporates PE best practices...

ID: 2508.06942v1 cs.SE, cs.AI

arXiv PDF

📄 Context Engineering for Multi-Agent LLM Code Assistants Using Elicit, NotebookLM, ChatGPT, and Claude Code

2025-08-14

Авторы:

Muhammad Haseeb

## Контекст Область исследования сосредоточена на улучшении AI-помощников для разработки программного обеспечения, которые используют трансформационные ларже-лангуэжности (LLMs). Несмотря на выдающиеся достижения в автоматизации задач, таких как автодополнение кода и оптимизация, эти системы терпят неудачу при работе с комплексными многофайловыми проектами. Это связано с ограниченностью контекста, пониманием проектных структур и нехваткой специализированного знания. Эти проблемы порождают высокую частоту ошибок и неэффективность в разработке. Мотивация заключается в создании более умных, контекстуализированных систем, которые могут адекватно работать с мощными трансформационными LLMs для решения задач в реальном мире. ## Метод Методология основывается на создании интегрированного контекстного подхода, включающего несколько AI-компонентов. Интент-транслятор (GPT-5) анализирует пользовательские запросы, чтобы выявить их конкретные цели. Используя семантический поиск Elicit, система инъектирует доменную знания из литературы. NotebookLM синтезирует документацию и контекстные сведения для повышения понимания. Наконец, генерация и проверка кода осуществляется с помощью Claude Code multi-agent system, в которой каждый агент отвечает за определенную задачу. Эта система построена на декомпозиции ролей и синхронной координации нескольких AI-агентов. ## Результаты Эксперименты проводились на реальных кодовых репозиториях, включая Next.js и другие большие проекты. Интегрированный подход показал важное улучшение в точности и надежности в сравнении с одноагентными системами. Например, в сравнении с CodePlan и HyperAgent, система показала значительное уменьшение ошибок в первом запросе (single-shot success rate) и более высокую точность при выполнении задач в контексте проекта. Квалитативные результаты показали, что система эффективно выполняет задачи, такие как планирование функций, редактирование и тестирование, с минимальным участием человека. ## Значимость Предложенная система может быть применима в разработке, тестировании и деплое программного обеспечения. Она предоставляет преимущества в виде уменьшения частоты ошибок, увеличения точности и лучшего понимания контекста проекта. Это особенно важно при работе с жесткими проектными структурами, где современные системы часто терпят неудачу. Будущие исследования будут направлены на улучшение эффективности координации между агентами и расширение системы для поддержки дополнительных языков программирования и системных технологий. ## Выводы Предложенный подход достиг существенных улучшений в сфере контекстно-зависимого помощника для разработ

Annotation:

Large Language Models (LLMs) have shown promise in automating code generation and software engineering tasks, yet they often struggle with complex, multi-file projects due to context limitations and knowledge gaps. We propose a novel context engineering workflow that combines multiple AI components: an Intent Translator (GPT-5) for clarifying user requirements, an Elicit-powered semantic literature retrieval for injecting domain knowledge, NotebookLM-based document synthesis for contextual under...

ID: 2508.08322v1 cs.SE, cs.AI, 68T07, 68N01, D.2.2; I.2.6; D.2.5; I.2.8

arXiv PDF

📄 Energy-Aware Code Generation with LLMs: Benchmarking Small vs. Large Language Models for Sustainable AI Programming

2025-08-14

Авторы:

Humza Ashraf, Syed Muhammad Danish, Aris Leivadeas, Yazan Otoum, Zeeshan Sattar

#### Контекст Проблема с высоким энергопотреблением и высокими уровнями углеродных пушек, связанных с использованием крупных языковых моделей (LLMs), приобретает все больший значение в условиях роста искусственного интеллекта (AI). Эти модели, необходимые для решения повседневных задач, включая генерацию кода, требуют значительных вычислительных ресурсов, что приводит к высоким энергозатратам и значительным уровням коррозии. Недавние исследования показали, что эти затраты могут быть существенно сокращены без существенного ущерба к качеству решений, если применять эффективные модели. В этом исследовании мы будем исследовать возможности малых языковых моделей (SLMs), которые отличаются энергоэффективностью и меньшим размером, для решения задач генерации кода. #### Метод Мы проводили эксперимент с 150 задачами на генерацию кода, взятыми из LeetCode. Эти задачи были разделены на три уровня сложности: легкие, средние и тяжелые. Мы сравнили подходы, используя три модели SLMs (StableCode-3B, StarCoderBase-3B, Qwen2.5-Coder-3B-Instruct) и две крупных LLMs (GPT-4.0 и DeepSeek-Reasoner). Модели были оцениваемы по четырём ключевым критериям: корректности решения, времени выполнения, использованию памяти и энергопотреблению. Были также использованы решения, написанные людьми, в качестве базовых стандартов для оценки качества и эффективности решений. #### Результаты Наши результаты показывают, что LLMs превосходят SLMs в точности решений на всех уровнях сложности, однако SLMs показали более эффективное использование энергии. В 52% случаев SLMs потребляли меньше или столько же энергии, чем LLMs. Это подтвердило, что SLMs могут быть эффективными альтернативами LLMs для решения простых и средних задач генерации кода, при этом сохраняя приемлемую точность. #### Значимость Наши результаты демонстрируют, что SLMs могут использоваться во многих сценариях, где необходима энергоэффективность без потери на достоверности решений. Это открывает новые пути для применения энергоэффективных моделей в сфере AI, в том числе для разработки программных решений, где энергопотребление и уровень коррозии являются важными факторами. Эти модели могут стать ключевым инструментом для создания экологически продуктивных AI-решений. #### Выводы Мы подтвердили, что SLMs могут достигать точности решений LLMs при значительном энергоэффективном преимуществе. Необходимы большие исследования, чтобы расширить область применения этих моделей и оптимизировать их для более сложных задач. Будущие исследования должны ориентироваться на развитие более эффективных методов, чтобы по

Annotation:

Large Language Models (LLMs) are widely used for code generation. However, commercial models like ChatGPT require significant computing power, which leads to high energy use and carbon emissions. This has raised concerns about their environmental impact. In this study, we evaluate open-source Small Language Models (SLMs) trained explicitly for code generation and compare their performance and energy efficiency against large LLMs and efficient human-written Python code. The goal is to investigate...

ID: 2508.08332v1 cs.SE, cs.AI

arXiv PDF

📄 OmniLLP: Enhancing LLM-based Log Level Prediction with Context-Aware Retrieval

2025-08-14

Авторы:

Youssef Esseddiq Ouatiti, Mohammed Sayagh, Bram Adams, Ahmed E. Hassan

## Контекст Современные программные системы используют журналирование (logging) для регистрации сведений о работе приложений во время выполнения. Это способствует улучшению обслуживания, отладке и мониторингу программных продуктов. Однако выбор уровня журналирования (log level) является одной из самых сложных задач при разработке, так как влияет на производительность и наблюдаемость системы. Решение этой проблемы часто требует значительных усилий разработчиков. В последние годы появились машинное обучение (ML) и трансформационные языковые модели (LLMs) для автоматизации выбора уровня журналирования. Несмотря на позитивные результаты, эти модели используют рандомизированные контекстные примеры, не учитывая структуры и разнообразие практик журналирования в развитых программных проектах. Мы предлагаем OmniLLP — расширенную модель LLPs, которая учитывает контекст семантики и собственности разработчиков, чтобы улучшить точность прогноза уровня журналирования. ## Метод OmniLLP основывается на кластеризации файлов исходного кода на основе двух признаков: (1) семантической схожести, отражающей функциональную цель кода, и (2) собственности разработчиков, касающейся их участия в разработке конкретных файлов. Для выбора контекста в ходе прогнозирования мы используем семантические кластеры, структурируемые по семантическим признакам, и собственностные кластеры, определяемые совместным участием разработчиков. Эти кластеры обеспечивают более контекстуально подходящие примеры для ввода в LLM, увеличивая точность прогноза уровня журналирования. Мы реализовали нашу модель на основе трансформационных моделей LLMs и создали метрики для оценки её эффективности. ## Результаты Мы провели эксперименты с OmniLLP на нескольких проектах с открытым исходным кодом, оценивая её производительность сравнительно с базовой моделью LLPs. Наши результаты показали, что кластеризация по семантике и собственности приводит к дополнительному улучшению точности прогноза уровня журналирования на 8% AUC по сравнению с рандомизированными примерами в контексте. Комбинация семантической и собственностной кластеризации дала лучшие результаты — AUC от 0.88 до 0.96 на проектах, протестированных в рамках исследования. Эти результаты подтверждают то, что OmniLLP предоставляет более точное, контекстуально осмысленное прогнозирование уровня журналирования, что может существенно упростить обслуживание и мониторинг программных систем. ## Значимость OmniLLP может быть применена в различных областях, включая отладку, мониторинг и анализ производительности программных систем. Она предоставля

Annotation:

Developers insert logging statements in source code to capture relevant runtime information essential for maintenance and debugging activities. Log level choice is an integral, yet tricky part of the logging activity as it controls log verbosity and therefore influences systems' observability and performance. Recent advances in ML-based log level prediction have leveraged large language models (LLMs) to propose log level predictors (LLPs) that demonstrated promising performance improvements (AUC...

ID: 2508.08545v1 cs.SE, cs.AI

arXiv PDF

📄 Hallucinations in Code Change to Natural Language Generation: Prevalence and Evaluation of Detection Metrics

2025-08-14

Авторы:

Chunhua Liu, Hong Yi Lin, Patanamon Thongtanunam

## Контекст Modern language models показывают сильные возможности в решении задач в сфере программирования, включая генерацию кода. Однако они страдают от **hallucinations** — выхода за пределы фактической информации в генерируемом результате. Халлуцинации в коде и текстовом описании изменений (commit messages и code review comments) имеют уникальные характеристики ввиду структурно-контекстной сложности кода. Несмотря на исследования халлуцинаций в отдельных типах задач, их возникновение при задачах связанных с изменениями кода (например, генерация коммит-сообщений или комментариев к ревью) остается практически не изученным. Наша работа — первое полное исследование халлуцинаций в этих задачах. ## Метод Мы провели подробный анализ двух ключевых задач: генерация коммит-сообщений и комментариев к ревью. Использовали несколько моделей текстового понимания (например, CodeBERT) для сравнения. Для оценки подходов к определению халлуцинаций в генерируемых данных использовались различные метрики: модельные уверенности, функции атрибуции признаков, метрики n-gram, а также комбинации этих методов. Эксперименты проводились на выборках из реальных коммитов и комментариев. ## Результаты Оказалось, что примерно 50% генерируемых комментариев и 20% коммит-сообщений содержат халлуцинации. Метрики, использующие модельные уверенности и признаков атрибуции, показали себя лучше, чем простые n-gram метрики. Особенно эффективно была комбинированная оценка нескольких метрик, что позволило повысить точность детекции до 75%. Эти результаты демонстрируют необходимость использовать множественные оценочные подходы для улучшения точности. ## Значимость Наша работа имеет практическое значение для разработчиков, которые полагаются на автоматически генерируемые комментарии и сообщения. Халлуцинации могут привести к ошибкам в понимании кода, что негативно сказывается на качестве продукта. Мы также показали, что наша методика может применяться для **inference-time detection**, что позволяет снизить риск ввода неточных данных в процесс разработки. Достижения могут быть применены в системах контроля версий, системах код ревью и автоматизированных систем коммитов. ## Выводы Мы стали первыми, кто выявил и оценил проблему халлуцинаций в задачах генерации комментариев и сообщений из кода. Наши результаты показали, что почти 50% комментариев и 20% сообщений являются халлуцинациями. Мы развили множественные метрики, которые эффективно детектируют эти проблемы. Будущие исследования будут фокусироваться на улучшении конкретных метрик и интеграции этих наблюдений в реальные системы разработки.

Annotation:

Language models have shown strong capabilities across a wide range of tasks in software engineering, such as code generation, yet they suffer from hallucinations. While hallucinations have been studied independently in natural language and code generation, their occurrence in tasks involving code changes which have a structurally complex and context-dependent format of code remains largely unexplored. This paper presents the first comprehensive analysis of hallucinations in two critical tasks in...

ID: 2508.08661v1 cs.SE, cs.AI

arXiv PDF

📄 Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes

2025-08-13

Авторы:

Zhe Zhang, Runlin Liu, Aishan Liu, Xingyu Liu, Xiang Gao, Hailong Sun

#### Контекст Стремительно растущее влияние больших языковых моделей (LLMs) в процессе разработки программного обеспечения приводит к необходимости надёжного и строгого оценивания их работы на реальных задачах генерации кода. Однако существующие бенчмарки часто страдают от загрязнения данными и недостаточно высокого тестирующего режима, что ограничивает их возможность выявлять недостатки моделей. Мы предлагаем CODE2BENCH, новый концептуальный подход для динамического создания бенчмарков, способных выдерживать сильные нагрузки и гарантировать чистую среду для тестирования. #### Метод Предлагаемая методология CODE2BENCH заключается в автоматическом создании бенчмарков на основе реальных репозиториев GitHub. Особенности: (1) **Автоматизированная динамичность**, которая обеспечивается постоянным обновлением бенчмарков путём внедрения новых репозиториев и функций, что минимизирует вероятность загрязнения данными. (2) **Анализ зависимостей с использованием Scope Graph**, позволяющий классифицировать функции в зависимости от уровня самостоятельности. Это позволяет создавать бенчмарки с разными уровнями зависимости, включая Self-Contained (SC) для кросс-языкового сравнения и Weakly Self-Contained (WSC) для работы с допустимыми библиотеками. (3) **Тестирование на основе свойств (Property-Based Testing, PBT)**, которое автоматически генерирует тщательные тестовые наборы для проверки функций на функциональную корректность. #### Результаты Используя CODE2BENCH, мы построили CODE2BENCH-2505 — первый бенчмарк, состоящий из 880 Python-репозиториев, с 1,163 функциональными задачами для генерации кода, покрытыми 100% абстрактным синтезом. Мы провели эксперименты с 16 LLMs, включая PaLM, CodeGen, StarCoder и другие. Результаты показали, что модели сталкиваются с трудностями в решении Self-Contained (SC) задач, требующих сложной логики и пересечений языков, но в то же время вы mostsravlyaют лучшую производительность на Weakly Self-Contained (WSC) задачах. #### Значимость Новая подход, представленный в этой работе, предоставляет широкие возможности для лингвистических моделей и библиотек, работающих с программным кодом. Он позволяет создавать бенчмарки, которые устойчивы к загрязнению данными и выполняются в реальных условиях. Важность этого подхода проявляется в улучшении оценки моделей, их применении в разработке программного обеспечения и дальнейшей интеграции технологий LLMs в процесс разработки. #### Выводы Мы представили CODE2BENCH, создав динамический и нагруженный метод для создания бенчмарков. Этот подход является первым шагом в создании устойчивых к загрязнению, но надежных методов оцен

Annotation:

As large language models LLMs) become increasingly integrated into software development workflows, rigorously evaluating their performance on complex, real-world code generation tasks has become essential. However, existing benchmarks often suffer from data contamination and limited test rigor, constraining their ability to reveal model failures effectively. To address these, we present CODE2BENCH, a end-to-end pipeline for dynamically constructing robust and contamination-resistant benchmarks f...

ID: 2508.07180v1 cs.SE, cs.AI

arXiv PDF

📄 AutoAssert 1: A LoRA Fine-Tuned LLM Model for Efficient Automated Assertion Generation

2025-08-13

Авторы:

Yi Zhong, Hongchao Liu, Di ZHao

## Контекст В современном программном обеспечении, требования к качеству и надежности программного обеспечения становятся все более высокими. Одним из ключевых аспектов гарантии качества является автоматическое генерирование ассертов, которые позволяют проверить соответствие программного кода заданным требованиям. Однако существуют существующие проблемы, такие как высокая стоимость развития и обслуживания автоматических систем тестирования, а также трудности в создании точных ассертов, которые полностью отражают логику жесткого диска. Эти проблемы мотивируют развитие эффективных систем генерирования ассертов, которые могут оптимизировать подход к тестированию и обслуживанию программного обеспечения. ## Метод Методом генерирования ассертов, предложенным в статье, является сочетание методы трансформации языка (LLM) с методом генерирования ассертов на основе языка описания оборудования (HDL). Основной архитектурой является модель трансформации языка, которая была оптимизирована с помощью метода LoRA (Low-Rank Adaptation). Эта модель была применена к фреймворку Unsloth для автоматического генерирования ассертов. Фреймворк Unsloth обеспечивает интегрированный подход к генерированию ассертов, снижая стоимость развития и обслуживания, а также повышая точность и общеупотребительность. ## Результаты В ходе экспериментов было показано, что модель AutoAssert 1 была успешно применена для автоматического генерирования ассертов, демонстрируя высокую точность и эффективность. Использовались данные из реальных проектов, включая тесты на различных типах оборудования. Результаты показали, что модель соответствует требованиям логики жесткого диска и имеет эффективность, которая позволяет значительно снизить стоимость тестирования и производства. ## Значимость AutoAssert 1 может применяться в различных сферах, таких как тестирование программного обеспечения, тестирование оборудования, а также в области генерирования ассертов для автоматизации тестовых процессов. Одним из основных преимуществ является снижение затрат на разработку и обслуживание, а также увеличение точности и скорости генерирования ассертов. Это может привести к значительному повышению эффективности и доступности технологий тестирования и обслуживания. ## Выводы Выводы AutoAssert 1 - это высокоэффективная и гибкая модель для автоматического генерирования ассертов, которая позволяет оптимизировать процесс тестирования и обслуживания программного обеспечения. Будущие исследования будут направлены на повышение точности, снижение стоимо

Annotation:

As the complexity of software systems continues to increase, the demand for automated testing and maintenance tools is growing exponentially. To meet this urgent need, we propose a new assertion generation method based on Hardware Description Language (HDL). This method combines a lightweight, parameter-adjustable large language model (LLM) with the Unsloth platform to automatically generate test cases, thereby significantly reducing training costs without sacrificing accuracy or generalization ...

ID: 2508.07371v1 cs.SE, cs.AI

arXiv PDF

📄 Extracting Overlapping Microservices from Monolithic Code via Deep Semantic Embeddings and Graph Neural Network-Based Soft Clustering

2025-08-13

Авторы:

Morteza Ziabakhsh, Kiyan Rezaee, Sadegh Eskandari, Seyed Amir Hossein Tabatabaei, Mohammad M. Ghassemi

## Контекст Современные программные системы стремятся перейти с монолитных архитектур на микросервисные, чтобы улучшить масштабируемость, поддерживаемость и гибкость развертывания. Однако существующие методы экстракции микросервисов часто основываются на жестком кластеринге, при котором каждый компонент присваивается одному микросервису. Это приводит к увеличению взаимозависимости между микросервисами и уменьшению внутрисервисной когерентности. Мы предлагаем фреймворк Mo2oM (Monolithic to Overlapping Microservices), который формулирует задачу экстракции микросервисов как задачу мягкого кластеринга. Это позволяет компонентам принадлежать к нескольким микросервисам с вероятностным характером. Метод Mo2oM использует глубокие семантические отображения и структурные зависимости, извлекаемые из графов вызовов методов, для представления функциональных и архитектурных связей. Далее, мягкий кластеринг на основе графов GNN позволяет формировать оптимальные микросервисы. ## Метод Метод Mo2oM применяет глубокие семантические модели для получения векторных представлений компонентов, а также графы вызовов методов для извлечения структурных зависимостей. Эти данные объединяются в сети нод, где каждая нода представляет собой компонент. Затем, используя GNN, мы вычисляем вероятности принадлежности компонентов к микросервисам. Это позволяет микросервисам иметь нечёткие границы и включать несколько компонентов, что является более естественным для реальных систем. Метод также учитывает архитектурные зависимости, чтобы обеспечить баланс между когерентностью и взаимозависимостью. ## Результаты Мы проверили Mo2oM на четырёх открытых бенчмарках, сравнив его со штатными базовыми алгоритмами. Наши результаты показывают, что Mo2oM улучшает **структурную модулярность** (когерентность и взаимозависимость) на 40.97%, **процент вызовов между микросервисами** (связность) на 58%, **количество интерфейсов** (модулярность и декомпозиция) на 26.16%, и **распределение размеров микросервисов** (эquilibrность) на 38.96%. Эти результаты демонстрируют то, что Mo2oM выдаёт более гармоничные и эффективные микросервисные архитектуры по сравнению с другими подходами. ## Значимость Наш подход может применяться в разработке программных систем, где необходимо найти баланс между модулярностью и взаимозависимостью. Он позволяет улучшить модулярность, уменьшить взаимодействие между микросервисами и сделать размеры микросервисов более балансированными. Эти преимущества могут су

Annotation:

Modern software systems are increasingly shifting from monolithic architectures to microservices to enhance scalability, maintainability, and deployment flexibility. Existing microservice extraction methods typically rely on hard clustering, assigning each software component to a single microservice. This approach often increases inter-service coupling and reduces intra-service cohesion. We propose Mo2oM (Monolithic to Overlapping Microservices), a framework that formulates microservice extracti...

ID: 2508.07486v1 cs.SE, cs.AI, cs.CV

arXiv PDF

1
2
30
31
32
33
34
35

Показано 311 - 320 из 341 записей