📚 Саммари научных статей из arXiv

Найдено 55 результатов по запросу 'cs.SE, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Targeted Test Selection Approach in Continuous Integration

2025-09-16

Авторы:

Pavel Plyusnin, Aleksey Antonov, Vasilii Ermakov, Aleksandr Khaybriev, Margarita Kikot, Ilseyar Alimova, Stanislav Moiseev

## Контекст В современном программном развитии тестирование изменений (change-based testing) играет ключевую роль в обеспечении качества кода. Однако при увеличении кодовых баз и росте временных тестов становится все сложнее эффективно управлять процессом тестирования, особенно когда разработчики вносят многочисленные коммиты каждый день. Это приводит к неэффективности и повышению затрат на тестирование. Чтобы улучшить ситуацию, мы предлагаем Targeted Test Selection (T-TS) — метод тестирования, основанный на машинном обучении, который позволяет уменьшить время исполнения тестов, сохранив высокую эффективность обнаружения ошибок. ## Метод T-TS использует машинное обучение для выбора наиболее значимых тестов, которые необходимо выполнить для данных изменений. Метод основывается на представлении коммитов в виде Bags-of-Words из измененных файлов. Для улучшения точности выбора также используются дополнительные предиктивные признаки, такие как изменения в файлах с большим баг-треками, а также характеристики измененных файлов (например, объем изменений и расположение изменений в файле). Отличительной чертой T-TS является отказ от использования карт покрытия, что упрощает процесс и увеличивает его скорость. Наш подход включает в себя два этапа: (1) генерация данных для обучения на основе журналов изменений и тестовых запусков, и (2) обучение модели классификации, которая выбирает наиболее важные тесты для каждого коммита. ## Результаты Мы провели эксперименты с T-TS на обоих внутренних и публичных наборах данных. Эти эксперименты показали, что T-TS эффективно выбирает только 15% из всех тестов, что приводит к сокращению времени исполнения тестов на $5.9\times$ и ускорению процесса тестирования на $5.6\times$. Более того, T-TS обнаруживает 95% от всех сбоев, что позволяет существенно уменьшить затраты на тестирование без ущерба для качества. Мы также проверили T-TS в реальной промышленной среде, где он показал свою эффективность, стабильно обнаруживая тесты, которые требуют улучшения или изменения в коде. ## Значимость Предложенный подход может быть использован в различных промышленных секторах, где высока нагрузка на системы тестирования (например, в fintech, ИТ-сервисах, транспортной индустрии). Он позволяет сократить время тестирования, уменьшить затраты на ресурсы и улучшить общую производительность технологического процесса. Инновационная система T-TS может стать важным инструментом для внедрения методов тестирования в промышленном программном обеспечении, улучшая не только эффективность, но и качество работы тестов в целом. ## Выводы Результаты наших исследований показали,

Annotation:

In modern software development change-based testing plays a crucial role. However, as codebases expand and test suites grow, efficiently managing the testing process becomes increasingly challenging, especially given the high frequency of daily code commits. We propose Targeted Test Selection (T-TS), a machine learning approach for industrial test selection. Our key innovation is a data representation that represent commits as Bags-of-Words of changed files, incorporates cross-file and additiona...

ID: 2509.10279v1 cs.SE, cs.LG

arXiv PDF

📄 Code2MCP: A Multi-Agent Framework for Automated Transformation of Code Repositories into Model Context Protocol Services

2025-09-12

Авторы:

Chaoqian Ouyang, Ling Yue, Shimin Di, Libin Zheng, Shaowu Pan, Min-Ling Zhang

## Контекст В последние годы проявились существенные тенденции в развитии ИИ, связанные с появлением больших языковых моделей (LLMs). Одна из основных проблем в этой области — необходимость интеграции LLM с различными инструментами (MCP). Это приводит к проблеме "N × M", при которой каждая модель требует отдельной настройки для каждого инструмента. Эта ситуация усложняет интеграцию, снижает эффективность разработки и ограничивает инновации. Для устранения этой проблемы был предложен модельный контекстный протокол (MCP), который автоматизирует интеграцию моделей и инструментов. Однако, существуют значительные трудности в переводе миллионов кодов из GitHub в MCP-совместимые сервисы, что требует значительных усилий и времени. Это ставит перед разработчиками задачу автоматизации этого процесса. ## Метод Code2MCP — это мульти-агентная система, разработанная для автоматического преобразования кодов открытых репозиториев GitHub в MCP-совместимые сервисы с минимальным вмешательством человека. Основная методология включает несколько этапов: анализ кода, настройка среды, генерацию кода и развертывание сервиса. В центре лежит LLM-driven "Run--Review--Fix" цикл, который использует глубокое обучение для диагностики и исправления ошибок в сгенерированном коде. Эта система также автоматически создает документацию для каждого сгенерированного сервиса, что упрощает задачу разработчикам. ## Результаты Проводились эксперименты с различными типами кодов открытых репозиториев. Были достигнуты следующие результаты: 1. Автоматическое преобразование большинства репозиториев в MCP-совместимые сервисы; 2. Уменьшение времени настройки и интеграции до нескольких минут; 3. Генерация технической документации для каждого сервиса; 4. Демонстрация высокой точности и эффективности в тестировании. Эти результаты показывают, что Code2MCP эффективно автоматизирует процесс интеграции и создает новые возможности для развития MCP. ## Значимость Code2MCP имеет широкие перспективы применения в различных сферах, включая развитие программного обеспечения, машинное обучение и интеграцию ИИ-систем. Основные преимущества: 1. Уменьшение времени и стоимости разработки; 2. Увеличение эффективности интеграции инструментов; 3. Создание более открытого и интегрированного экосистемы ИИ. Этот подход может стать ключевым для перелома в сфере автоматизированной интеграции и дальнейшего развития ИИ. ## Выводы Результаты исследования подтверждают эффективность Code2MCP в автоматическом преобразовании кодов открытых репозиториев в MCP-сов

Annotation:

The proliferation of Large Language Models (LLMs) has created a significant integration challenge in the AI agent ecosystem, often called the "$N \times M$ problem," where N models require custom integrations for M tools. This fragmentation stifles innovation and creates substantial development overhead. While the Model Context Protocol (MCP) has emerged as a standard to resolve this, its adoption is hindered by the manual effort required to convert the vast universe of existing software into MC...

ID: 2509.05941v1 cs.SE, cs.LG, cs.MA

arXiv PDF

📄 Hypergraph-Guided Regex Filter Synthesis for Event-Based Anomaly Detection

2025-09-10

Авторы:

Margarida Ferreira, Victor Nicolet, Luan Pham, Joey Dodds, Daniel Kroening, Ines Lynce, Ruben Martins

## Контекст Область исследования фокусируется на автоматическом синтезе регулярных выражений для обнаружения аномалий в событийных данных. Традиционные методы часто страдают от недостатка прозрачности и эффективности. Эти проблемы мотивируют развитие методов, которые обеспечивают достоверность и легкость интерпретации результатов. Наличие эффективных инструментов для детекции аномалий в событийных системах играет ключевую роль в обеспечении безопасности, мониторинга и анализа телеметрии в системах с высоким количеством событий. ## Метод Предлагаемый подход, HyGLAD, основывается на использовании гиперграфов для построения интерпретируемых множеств паттернов, моделирующих событийные данные. Алгоритм строит эквивалентные классы сущностей с похожим поведением и синтезирует регулярные выражения, охватывающие значения этих классов. Этот гиперграфический подход позволяет изобразить структуру данных и получить прозрачные регулярные выражения. Это значительно упрощает понимание и анализ обнаруженных аномалий. ## Результаты HyGLAD был проверен на пяти реальных данными системах, сравниваясь с семью методами нейросетевой детекции аномалий. Результаты показали, что HyGLAD обеспечивает более высокую точность (1.2x) и покрытие (1.3x) в сравнении с остальными методами. Он работает один реже чем глубокие нейросети (на одном ЦП, в отличие от GPU), что демонстрирует эффективность в обработке и требования к ресурсам. ## Значимость Основные применения HyGLAD включают детекцию аномалий в телеметрических данных, мониторинг безопасности, анализ трафика и систем мониторинга в реальном времени. Его наиболее выдающееся преимущество заключается в прозрачности результатов, что делает обнаружение аномалий легко интерпретируемым для людей. Это открывает новые возможности для быстрого анализа и реагирования на нестандартные ситуации. ## Выводы Результаты HyGLAD показывают, что он превосходит существующие методы в точности и эффективности детекции аномалий в событийных данных. Будущие исследования будут фокусироваться на расширении моделей для более сложных ситуаций и интеграции с другими моделями для обеспечения функционального многогранности.

Annotation:

We propose HyGLAD, a novel algorithm that automatically builds a set of interpretable patterns that model event data. These patterns can then be used to detect event-based anomalies in a stationary system, where any deviation from past behavior may indicate malicious activity. The algorithm infers equivalence classes of entities with similar behavior observed from the events, and then builds regular expressions that capture the values of those entities. As opposed to deep-learning approaches, th...

ID: 2509.06911v1 cs.SE, cs.LG

arXiv PDF

📄 Real-Time Performance Benchmarking of TinyML Models in Embedded Systems (PICO: Performance of Inference, CPU, and Operations)

2025-09-09

Авторы:

Abhishek Dey, Saurabh Srivastava, Gaurav Singh, Robert G. Pettit

## Контекст Объединение микроконтроллеров и нейронных сетей в области Edge AI позволяет решать сложные задачи компьютерного зрения и звукового анализа на устройствах с ограниченными ресурсами. Эти модели, известные как TinyML, обеспечивают реального времени обработку данных в условиях ограниченного количества памяти, пропускной способности и энергопотребления. Однако важно понимать, как эти модели работают на различных железных платформах, так как реальное время процесса инференса, использование CPU и эффективность памяти могут сильно отличаться. Недостаток инструментов для реального времени мониторинга и оценки таких моделей затрудняет оптимальный выбор платформы и настройку моделей. Для устранения этой проблемы разработан PICO-TINYML-BENCHMARK, который предлагает модульное и платформонезависимое решение для оценки реального времени TinyML-моделей. ## Метод PICO-TINYML-BENCHMARK представляет собой модульную архитектуру, которая включает в себя модели, платформы и метрики для эффективного мониторинга реального времени. Он поддерживает различные платформы, такие как BeagleBone AI-64 и Raspberry Pi 4, и оценивает три ключевые метрики: латентность вывода, использование CPU и эффективность памяти. Модели, оцениваемые в рамках данного исследования, включают Gesture Classification, Keyword Spotting и MobileNet V2. Данные для экспериментов были получены из реального мира, чтобы обеспечить актуальность и релевантность результатов. Такая разработанная система предоставляет пользователю возможность оптимизировать модели и выбирать платформу с учетом конкретных требований. ## Результаты Оценивая три TinyML-модели, расширенные бенчмарки показали различия в производительности на BeagleBone AI-64 и Raspberry Pi 4. Gesture Classification и Keyword Spotting показали лучшую эффективность на BeagleBone AI-64, где инференс выполняется с меньшей латентностью. Однако Raspberry Pi 4 демонстрирует выигрыш в памяти и энергоэффективности, который может быть критичен для приложений с ограниченным бюджетом. Например, в Keyword Spotting Raspberry Pi 4 показывает лучшую эффективность памяти, что может привести к более экономичной реализации. Такие результаты помогают понять ситуацию и сделать оптимальный выбор платформы и модели согласно требованиям приложения. ## Значимость Фреймворк PICO-TINYML-BENCHMARK имеет широкие возможности для применения в сферах, где реальное время и эффективность ключевые факторы. Это может быть особенно полезно для IoT-приложений, где сжатые ресурсы необходимы для эффективной работы. Данный подход также может быть использован для разработки моделей с меньшим расходом ресурсов и улучшения энергоэффективности. Эти резуль

Annotation:

This paper presents PICO-TINYML-BENCHMARK, a modular and platform-agnostic framework for benchmarking the real-time performance of TinyML models on resource-constrained embedded systems. Evaluating key metrics such as inference latency, CPU utilization, memory efficiency, and prediction stability, the framework provides insights into computational trade-offs and platform-specific optimizations. We benchmark three representative TinyML models -- Gesture Classification, Keyword Spotting, and Mobil...

ID: 2509.04721v1 cs.SE, cs.LG

arXiv PDF

📄 Stack Trace-Based Crash Deduplication with Transformer Adaptation

2025-08-30

Авторы:

Md Afif Al Mamun, Gias Uddin, Lan Xia, Longyu Zhang

#### Контекст Стэк-трейс (stack trace) — список вызовов функций в момент сбоя программы — является основополагающим элементом автоматизированных систем отчетации о сбоях в программном обеспечении. Однако значительная доля отчетов о сбоях является дубликатами, что создает значительную нагрузку на разработчиков, затрагивая их время и ресурсы. Традиционные методы дедупликации, основанные на строковой схожести и правилах, не всегда эффективны в учете контекста и структуры стек-трейсов. Это приводит к неэффективности систем отчетации и увеличению сложности масштабирования. Мы предлагаем новую методику, основанную на трансформерах, для эффективной дедупликации стек-трейсов, которая учитывает их глубокую структуру и контекст. #### Метод Мы представляем dedupT, новую модель, основанную на трансформерах, для дедупликации стек-трейсов. dedupT использует предобученную модель языковой модели (PLM) для адаптации к стек-трейсам, а затем применяет полносвязную нейронную сеть (Fully Connected Network, FCN) для оценки степени схожести дубликатов. Модель анализирует стек-трейсы целиком, а не как набор отдельных фреймов, что позволяет лучше понять их структуру и контекст. Кроме того, мы используем методы обучения с подкреплением (reinforcement learning) для оптимизации ранжирования дубликатов. Эта архитектура обеспечивает более точное и эффективное определение дубликатов и уникальных сбоев. #### Результаты Мы провели эксперименты с четырьмя открытыми наборами данных, сравнив dedupT с традиционными методами (смещенной строковой схожестью, последовательным выравниванием) и другими DL-решениями. dedupT показал значительное улучшение в оценке дубликатов и уникальных сбоев. Мы измерили производительность модели по метрикам Mean Reciprocal Rank (MRR) и Receiver Operating Characteristic Area Under the Curve (ROC-AUC), получив результаты, которые превосходят существующие технологии. dedupT показал увеличение MRR до 15% по сравнению с лучшими DL-методами и до 9% по сравнению с традиционными подходами. Это свидетельствует о том, что dedupT эффективнее в уменьшении числа дубликатов и улучшении работы систем отчетации сбоев. #### Значимость Наш подход имеет распространенные применения в автоматизированных системах отчетации и мониторинге программного обеспечения. DedupT может существенно сократить число дубликатов, уменьшить нагрузку на разработчиков и улучшить эффективность систем отслеживания проблем. Благодаря интеграции трансформеров в программное обеспечение, наша работа демонстрирует потенциал новых технологий для улучшения процессов разработки и мониторинга. #### Выводы DedupT демонст

Annotation:

Automated crash reporting systems generate large volumes of duplicate reports, overwhelming issue-tracking systems and increasing developer workload. Traditional stack trace-based deduplication methods, relying on string similarity, rule-based heuristics, or deep learning (DL) models, often fail to capture the contextual and structural relationships within stack traces. We propose dedupT, a transformer-based approach that models stack traces holistically rather than as isolated frames. dedupT fi...

ID: 2508.19449v1 cs.SE, cs.LG

arXiv PDF

📄 Who Wins the Race? (R Vs Python) - An Exploratory Study on Energy Consumption of Machine Learning Algorithms

2025-08-27

Авторы:

Rajrupa Chattaraj, Sridhar Chimalakonda, Vibhu Saujanya Sharma, Vikrant Kaulgud

## Контекст Машинное обучение (ML) широко используется в современных системах, но является ресурсоемким и способствует повышенному потреблению энергии, что приводит к высоким уровням углеродных выбросов. Хотя существует много исследований, посвященных оценке производительности и точности методов машинного обучения, мало численных исследований направлены на изучение их энергоэффективности. Ранее проводились попытки сравнить энергоэффективность различных программных языков для решения конкретных задач, но до сих пор не было подробного исследования, посвященного сравнению энергоэффективности языков Python и R при выполнении задач машинного обучения. Целью данного исследования является изучение энергоэффективности Python и R при реализации задач машинного обучения, чтобы повысить осознание энергозатрат при разработке и использовании моделей машинного обучения. ## Метод В ходе исследования были реализованы 10 задач машинного обучения (5 задач регрессии и 5 задач классификации), которые были реализованы в Python и R. Для измерения энергоэффективности использовался энергоснаряд, определяющий затраты энергии в процессе обучения и использования моделей. Для сравнения использовались статистические методы, чтобы выявить статистически значимые различия в потреблении энергии и производительности между Python и R. ## Результаты Исследование показало, что Python и R в 95% случаев отличаются статистически значимо по потреблению энергии при обучении и использовании моделей. Особенно выраженным было различие при выполнении моделей на оптимизацию, где затраты энергии Python были до 99.16% меньше, чем у R. Для процессов инференса разница достигала 99.8%. Эти результаты свидетельствуют о значительном влиянии выбора языка программирования на энергоэффективность машинных обучающих моделей. ## Значимость Результаты исследования имеют большое значение для разработчиков, которые стремятся оптимизировать энергопотребление своих моделей машинного обучения. Python оказался более энергоэффективным, что может привести к снижению затрат на вычисления и сокращению энергозатрат во время обучения и использования моделей. Эти материалы могут использоваться для разработки более экологичных и энергоэффективных систем машинного обучения. ## Выводы Исследование подтвердило, что язык программирования может значительно влиять на энергоэффективность машинных обучающих моделей. Python показал себя более энергоэффективным в сравнении с R. Будущие исследования могут сосредоточиться на расширении этого исследования для других языков и задач, а также на изучении альтер

Annotation:

The utilization of Machine Learning (ML) in contemporary software systems is extensive and continually expanding. However, its usage is energy-intensive, contributing to increased carbon emissions and demanding significant resources. While numerous studies examine the performance and accuracy of ML, only a limited few focus on its environmental aspects, particularly energy consumption. In addition, despite emerging efforts to compare energy consumption across various programming languages for sp...

ID: 2508.17344v1 cs.SE, cs.LG, cs.PF, cs.PL

arXiv PDF

📄 DesCartes Builder: A Tool to Develop Machine-Learning Based Digital Twins

2025-08-27

Авторы:

Eduardo de Conto, Blaise Genest, Arvind Easwaran, Nicholas Ng, Shweta Menon

## Контекст В последние годы дигитал-твинны (DT) стали одной из наиболее востребованных технологий для мониторинга, управления и оптимизации сложных систем в различных областях, включая гражданскую инженерию. Основным условием для эффективности DT является то, что он должен быть быстрым, точным и легко поддерживаемым цифровым двойником физического объекта (ФТ). Для достижения этого цели часто используется машинное обучение (ML), чтобы создавать реальному времени модели линейных снижений (ROM) на основе высокоточных симуляций ФТ, а также адаптировать эти модели к конкретной цели, используя исторические данные сенсоров ФТ. Однако многие современные подходы к разработке DT остаются ад-хочными и неструктурированными, что приводит к низкой модификабельности и трудностям в повторном использовании. Необходима систематизированная методология, которая позволит структурировать процесс разработки DT. ## Метод DesCartes Builder представляет собой программную среду, основанную на визуальной парадигме данных, которая позволяет разрабатывать индивидуальные ML-модели и полностью настраиваемые карты процессов для создания цифровых двойников. Она включает в себя библиотеку параметризуемых операций и ML-алгоритмов, нацеленных на разработку DT. Архитектура среды позволяет удобно управлять циклом проектирования DT, от создания моделей до их реализации и моделирования в реальном времени. Инструмент открыт и гибкий, чтобы обеспечить повторное использование компонентов и максимальную модификабельность. ## Результаты Для реализации DesCartes Builder был проведен эксперимент, в котором он использовался для разработки модели DT для предсказания пластической деформации структуры в области гражданской инженерии. Использовались данные из исторических сенсоров ФТ и многочисленных симуляций. Эксперименты показали, что DesCartes Builder обеспечивает высокую точность и быстроту работы модели, а также легкость в использовании благодаря визуальному интерфейсу. Результаты подтверждают, что инструмент может быть эффективно применен для создания DT в различных областях. ## Значимость DesCartes Builder может применяться в различных областях, включая гражданскую инженерию, промышленность и технологии. Он предоставляет пользователям возможность легко создавать, конфигурировать и моделировать DT, что увеличивает производительность и эффективность. Эта систематизированная подход позволяет повторно использовать модели и уменьшает время разработки. Будущие исследования будут сосредоточены на улучшении гибкости среды и расширении возможностей для различных сценариев применения. ## В

Annotation:

Digital twins (DTs) are increasingly utilized to monitor, manage, and optimize complex systems across various domains, including civil engineering. A core requirement for an effective DT is to act as a fast, accurate, and maintainable surrogate of its physical counterpart, the physical twin (PT). To this end, machine learning (ML) is frequently employed to (i) construct real-time DT prototypes using efficient reduced-order models (ROMs) derived from high-fidelity simulations of the PT's nominal ...

ID: 2508.17988v1 cs.SE, cs.LG

arXiv PDF

📄 LLM-GUARD: Large Language Model-Based Detection and Repair of Bugs and Security Vulnerabilities in C++ and Python

2025-08-26

Авторы:

Akshay Mhatre, Noujoud Nader, Patrick Diehl, Deepti Gupta

################################# ## Контекст ################################# Large Language Models (LLMs), такие как ChatGPT-4, Claude 3, и LLaMA 4, вошли в программное обеспечение и развитие приложений, помогая в задачах от генерирования кода до дебаггинга. Несмотря на их мощь, их эффективность в обнаружении разнообразных ошибок в коде, особенно тех, которые имеют отношение к безопасности, остается мало изученной. Данное исследование призвано оценить эффективность трех ведущих LLMs в детектировании и исправлении ошибок в коде на C++ и Python. Исследование основывается на реальных фрагментах кода из SEED Labs, OpenSSL, и PyBugHive, а также использует контекстно-адаптивные протоколы взаимодействия с моделями, чтобы скопировать реальные сценарии дебаггинга. ################################# ## Метод ################################# Методология основывается на нескольких этапах: набор данных, контекстно-адаптивное взаимодействие с моделями, и многомерная оценка результатов. Набор данных включает в себя 115 программных ошибок, созданных специально для экспериментов, которые охватывают синтаксические, семантические, и безопасности-связанные проблемы. Модели были оценивали в трех областях: детектировании ошибок, логической целостности, и рекомендации решений. Для каждого этапа использовались конкретные подходы: например, для детектирования ошибок - оперативное выделение проблемных участков кода; для логической целостности - проверка соответствия решений поставленным целям. ################################# ## Результаты ################################# Результаты показали, что все три модели определяют синтаксические и семантические ошибки с высокой точностью, делая их полезными для образовательных целей и первоначальных анализов кода. Однако их эффективность снижается при работе с более сложными безопасности-связанными ошибками и большими кодовыми базами. ChatGPT-4 и Claude 3 оказались более устойчивыми в сценариях, требующих глубокого контекстного понимания, чем LLaMA 4. Это подтверждает их потенциал для автоматизированных систем код-ревью, но также выделяет ограничения в сфере безопасности. ################################# ## Значимость ################################# Результаты имеют практическое значение для развития систем автоматизированного контроля качества кода, которые могут использовать LLMs для первоначального скрининга. Они также подчеркивают возможность LLMs в области образования, помогая учащимся понять принципы безопасного программирования. Несмотря на это, ограничения LLMs в сфере безопасности должны быть рассмотрены, когда эти модели применяются в критически важных системах. ################################# ## Выводы ################################# Ларже Лангуэдж Моделс оказались эффективными для детектирования базовых ошибок в коде, но их применение в сфере безопасности требует дополнительных и

Annotation:

Large Language Models (LLMs) such as ChatGPT-4, Claude 3, and LLaMA 4 are increasingly embedded in software/application development, supporting tasks from code generation to debugging. Yet, their real-world effectiveness in detecting diverse software bugs, particularly complex, security-relevant vulnerabilities, remains underexplored. This study presents a systematic, empirical evaluation of these three leading LLMs using a benchmark of foundational programming errors, classic security flaws, an...

ID: 2508.16419v1 cs.SE, cs.LG

arXiv PDF

📄 Assessing the Quality and Security of AI-Generated Code: A Quantitative Analysis

2025-08-22

Авторы:

Abbas Sabra, Olivier Schmitt, Joseph Tyler

## Контекст В последние годы широко распространены становятся технологии искусственного интеллекта (ИИ), которые найдены во многих сферах жизнедеятельности человека. Одним из важных направлений ИИ является автоматизированное создание кода с помощью Large Language Models (LLM). Эти модели позволяют значительно ускорить процесс программирования, однако возникают вопросы касательно качества и безопасности полученного кода. Несмотря на то, что LLM могут генерировать код, который выполняет заданные функции, неясно, насколько этот код качественный и безопасен. Это создает проблему для развития систем высокого качества, которые зависят от надежного и безопасного кода. Исследование направлено на оценку качества и безопасности кода, генерируемого LLM, чтобы определить преимущества и ограничения данных моделей. ## Метод Исследование основывается на компаративном анализе выходных данных пяти моделей LLM: Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B и OpenCoder 8B. Для оценки качества и безопасности генерируемого кода были проведены тесты на 4,442 Java-заданиях с использованием статического анализатора SonarQube. SonarQube позволяет выявить различные проблемы кода, включая баги, системные уязвимости и код с медленным выполнением. Эксперименты были проведены на независимых выборках, чтобы убедиться в достоверности результатов. ## Результаты Результаты исследования показали, что все исследованные модели LLM способны генерировать функциональный код. Однако они также внедряют различные проблемы, такие как баги, уязвимости и неэффективный код. Легко выявить, что критические проблемы, такие как хардкодинг паролей и пути путей, возникали в нескольких моделях. Для оценки качества кода использовался показатель SonarQube, который выявил ошибки и уязвимости. Однако было обнаружено, что уровень функциональной силы, измеренный по скорости прохождения юнит-тестов, не является хорошим индикатором общего качества и безопасности кода. ## Значимость Результаты имеют значение для нескольких областей. Во-первых, они подчеркивают необходимость проведения статического анализа для выявления и исправления ошибок в LLM-generated code. Во-вторых, они поднимают вопросы о ценности функциональных показателей, таких как Pass@1, в качестве индикатора для общего качества кода. Открытиями данного исследования могут воспользоваться программисты, компании и исследователи, которые используют LLM для создания кода. Исследование также может способствовать развитию методов статического анализа для улучшения безопасности и качества ИИ-генерируемого кода. ## Выводы На основе исследования следует сделать следующие вы

Annotation:

This study presents a quantitative evaluation of the code quality and security of five prominent Large Language Models (LLMs): Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B, and OpenCoder 8B. While prior research has assessed the functional performance of LLM-generated code, this research tested LLM output from 4,442 Java coding assignments through comprehensive static analysis using SonarQube. The findings suggest that although LLMs can generate functional code, they also introduce ...

ID: 2508.14727v1 cs.SE, cs.LG

arXiv PDF

📄 Next Edit Prediction: Learning to Predict Code Edits from Context and Interaction History

2025-08-15

Авторы:

Ruofan Lu, Yintong Huo, Meng Zhang, Yichen Li, Michael R. Lyu

## Контекст Прогресс в области бо LARGE LANGUAGE MODELS (LLMs) положил начало новому поколению AI-powered coding assistants, которые внедрены в среды разработки. Однако существуют два основных подхода, которые, несмотря на свои преимущества, обладают ограничениями. Лот-латентность комплитиона (code completion) ограничивается контекстом текущего положения курсора, что делает его неэффективным для выполнения комплексных модификаций. Напротив, chat-based editing способен выполнять интенсивные модификации, но требует от разработчика прерывать свою работу, описывать намерение в естественном языке, что приводит к контекстному переключению и логическому разрыву. В результате, ни один из этих подходов не предлагает проактивного предсказания следующего шага разработчика в последовательности связанных работ. Для решения этой проблемы и введения более интерактивного подхода предлагается задача **Next Edit Prediction**, которая предназначена для прогнозирования следующей редакции кода на основе последних действий разработчика. ## Метод Для реализации задачи Next Edit Prediction была разработана методология, основанная на сборе и подготовке высококачественной данной для fine-tuning. Использовался машинное обучение с учителем (supervised learning) для обучения моделей, которые учитывают историю взаимодействия разработчика. Архитектура моделей включала в себя различные модели, такие как стандартные преобразовательные модели (transformers) и дополнительные модификации, специально разработанные для задачи. Данные для обучения были сформированы на основе реальных интеракций разработчиков, чтобы обеспечить реалистичность и актуальность прогнозируемых редакций. Этот подход имитирует реальность разработки и позволяет модели выучивать контекстные зависимости и структуры кода. ## Результаты В ходе экспериментов были проведены сравнительные оценки различных моделей, включая основные предложенные в работе, а также базовые модели для сравнения. Были измерены функции качества, такие как точность предсказания, предложенное решение взаимодействия, и скорость выполнения. Были получены результаты, показавшие значительные улучшения в точности и скорости прогнозирования следующих редакций в сравнении с базовыми моделями. Были сгенерированы визуализации, демонстрирующие то, как модель предсказывает следующие редакции, исходя из истории взаимодействий разработчика. Эти результаты указывают на высокую точность и эффективность моделей в решении задачи Next Edit Prediction. ## Значимость Предложенная модель имеет большое значение для развития AI-powered coding assistants, так как она делает инструменты более прогнозируемыми и интерактивными. Модель может быть применена в различных сценариях, таких как локальное разработческое окружение, обла

Annotation:

The rapid advancement of large language models (LLMs) has led to the widespread adoption of AI-powered coding assistants integrated into a development environment. On one hand, low-latency code completion offers completion suggestions but is fundamentally constrained to the cursor's current position. On the other hand, chat-based editing can perform complex modifications, yet forces developers to stop their work, describe the intent in natural language, which causes a context-switch away from th...

ID: 2508.10074v1 cs.SE, cs.LG

arXiv PDF

1
2
3
4
5
6

Показано 41 - 50 из 55 записей