📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Dianshu Liao, Xin Yin, Shidong Pan, Chao Ni, Zhenchang Xing, Xiaoyu Sun

## Контекст Unit testing является ключевым элементом гарантии качества программного обеспечения, однако написание и поддержание тестов часто оказывается времязатратным и подверженным ошибкам. Обычные heuristic-based и LLM-based подходы сталкиваются с проблемами недостаточного покрытия, особенно для глубоких или сложных логических путей. Это приводит к ограниченной эффективности в обнаружении багов. В данной работе предлагается новый подход, JUnitGenie, который использует комбинацию знаний о коде и семантических способностей LLMs, чтобы улучшить покрытие с помощью контекстно-акцентрированного тестирования. ## Метод JunitGenie использует статический анализ для извлечения кода и структуры логики из Java-проектов. Эти данные преобразуются в специальные продвинутые промпты, созданные с помощью LLMs, которые учитывают контекст и глубину логики. Для каждого метода создается индивидуальный тест с помощью LLMs, который акцентируется на покрытии различных путей выполнения. Это позволяет повысить качество теста за счет создания более глубоких и точных тестов, которые могут обнаруживать реальные баги. ## Результаты В ходе экспериментов на 2,258 тестовых методах из 10 Java-проектов показано, что JUnitGenie достигает значительного повышения покрытия в сравнении с традиционными heuristic-based и LLM-based подходами. Обычно, покрытие было увеличено на 29.60% для линий кода и 31.00% для ветвей выполнения. Эти тесты, созданные контекстно-акцентрированным подходом, также удалось обнаружить реальные баги, которые были позже подтверждены и исправлены разработчиками. ## Значимость JUnitGenie может быть применен в различных областях, где необходимо повысить качество программного обеспечения, включая модульное тестирование, автоматизацию тестирования и поддержание качества кода. Он предоставляет преимущества в формировании глубоких тестов, которые обнаруживают больше реальных ошибок. Это может дать потенциальное влияние на улучшение качества тестирования в различных проектах, уменьшая время, потраченное на модульное тестирование и увеличивая эффективность разработки. ## Выводы JUnitGenie позволяет повысить покрытие тестов, особенно для сложных и глубоких логических путей, благодаря интеллектуальному подходу, который использует контекст LLMs. Это улучшает качество программного обеспечения и может использоваться в будущих исследованиях, направленных на улучшение техник модульного тестирования и исправление багов.
Annotation:
Unit testing is essential for software quality assurance, yet writing and maintaining tests remains time-consuming and error-prone. To address this challenge, researchers have proposed various techniques for automating unit test generation, including traditional heuristic-based methods and more recent approaches that leverage large language models (LLMs). However, these existing approaches are inherently path-insensitive because they rely on fixed heuristics or limited contextual information and...
ID: 2509.23812v1 cs.SE, cs.AI
Авторы:

Yukai Zhao, Menghan Wu, Xing Hu, Xin Xia

#### Контекст Хранилища пакетов (репозитории) являются ключевым компонентом современных систем разработки программного обеспечения, обеспечивая доступ к библиотекам и фреймворкам, необходимым для разработки. Однако существует ряд проблем, связанных с надежностью и безопасностью этих репозиториев. Одна из самых критических проблем — это **package hallucinations**, когда системы, такие как Large Language Models (LLMs), рекомендуют пакеты, которые не существуют в реальности. Эти hallucinations могут быть использованы в атаках на цепочку поставок программного обеспечения, где злоумышленники регистрируют искусственные пакеты для злонамеренных целей. Таким образом, проверка LLMs на наличие таких недоразумений становится критически важной для защиты от подобных угроз. Несмотря на то, что существуют исследования по тестированию LLMs на наличие бессмысленных или неточных ответов, недостаточно уделяется внимания конкретной проблеме пакетных hallucinations. Для заполнения этой лаборатории мы предлагаем HFUZZER — новый подход к тестированию LLMs. #### Метод HFUZZER — это фреймворк тестирования, основанный на технологии fuzzing, который использует фразы для стимулирования LLMs к поиску более широкого круга релевантной информации. Основная идея заключается в том, что фразы, извлеченные из существующих пакетов или задач, используются для генерирования задач, которые могут вызвать package hallucinations. HFUZZER генерирует задачи, которые не только вызывают возможные неточности в ответах LLMs, но и убеждается в их корректности и релевантности. Для этого используется алгоритм, который анализирует текст задачи и выделяет фразы, которые могут вызвать зависания или неточности во время выполнения кода. Эта методика позволяет HFUZZER генерировать более разнообразные и сложные задачи, что дает более полное изображение проблем во LLMs. #### Результаты HFUZZER протестировал несколько актуальных LLMs, включая GPT-4. Он удачно вызвал пакетные hallucinations во всех подвергнутых исследованию моделях. В частности, HFUZZER выявил 46 уникальных несуществующих пакетов при тестировании GPT-4. Дополнительный анализ показал, что LLMs не только могут создавать несуществующие пакеты во время генерации кода, но и при создании окружения для разработки (например, конфигурации инструментов). Это указывает на широкий спектр уязвимостей, связанных с package hallucinations. Наконец, HFUZZER показал значительное увеличение числа уникальных выявленных несуществующих пакетов по сравнению с другими методами тестирования. #### Значимость HFUZZER имеет значительное значение в нескольких областях. Во-первых, он позволяет оценивать и улучшать безопасность LLMs в производственных си
Annotation:
Large Language Models (LLMs) are widely used for code generation, but they face critical security risks when applied to practical production due to package hallucinations, in which LLMs recommend non-existent packages. These hallucinations can be exploited in software supply chain attacks, where malicious attackers exploit them to register harmful packages. It is critical to test LLMs for package hallucinations to mitigate package hallucinations and defend against potential attacks. Although res...
ID: 2509.23835v1 cs.SE, cs.AI
Авторы:

Spandan Garg, Roshanak Zilouchian Moghaddam

## Контекст Performance bugs — это проблемы в программном обеспечении, вызывающие ненужный увеличение затрат ресурсов, не приводящие к ошибкам в функциональной части. Они трудно выявить и исправить, так как не вызывают функциональных сбоев, но неэффективно используют ресурсы. Данные проблемы значительно влияют на производительность программ, но часто не получают должного внимания из-за нехитрости их выявления и устранения. Появление современных агентов в сфере программного обеспечения дало возможность автоматизировать обнаружение и исправление багов. Однако существующие бенчмарки ориентированы на функциональную корректность, не учитывая проблемы производительности. Необходимо создать бенчмарк, который бы позволил проверить способности агентов решать проблемы производительности. ## Метод Мы предлагаем PerfBench — новый бенчмарк, состоящий из 81 реальных проблем производительности, извлечённых из GitHub-репозиториев на .NET. Отличительной чертой PerfBench является то, что он использует новую оценочную систему, при которой агенты могут создавать свои собственные бенчмарки производительности. Результаты этих бенчмарков сравниваются с результатами, полученными с исправлениями, предложенными разработчиками. Каждая задача в PerfBench подтверждена экспертами, чтобы гарантировать её реальность и актуальность. В нашем бенчмарке используется новая методология, позволяющая лучше оценивать способности агентов к решению проблем производительности. Это позволяет создавать более точные оценки их показателей. ## Результаты Мы провели эксперименты с использованием PerfBench и сравнили результаты работы двух агентов: базового OpenHands и модифицированного OpenHands-Perf-Agent. Базовый агент показал низкую производительность, достигнув только 3% успеха. Модифицированный агент OpenHands-Perf-Agent, использующий производительность-ориентированные инструменты и инструкции, повысил процент успешных решений до 20%. Наши результаты показали, что агенты, имеющие доступ к конкретным инструментам и инструкциям, могут значительно повысить свою эффективность в решении проблем производительности. Однако существуют еще значительные возможности для улучшения. ## Значимость PerfBench может применяться в разработке инструментов для автоматизации обнаружения и исправления проблем производительности. Он предоставляет значительные преимущества перед существующими бенчмарками, поскольку ориентирован на реальные проблемы производительности. Мы показали, что агенты, обученные на нашем бенчмарке, могут значительно повысить производительность системы, что в будущем может привести к революции в области ав
Annotation:
Performance bugs are inefficiencies in software that waste computational resources without causing functional failures, making them particularly challenging to detect and fix. While recent advances in Software Engineering agents have shown promise in automated bug fixing, existing benchmarks primarily focus on functional correctness and fail to evaluate agents' abilities to identify and resolve non-functional issues like performance bugs. We introduce PerfBench, a benchmark comprising 81 real-wo...
ID: 2509.24091v1 cs.SE, cs.AI, cs.PF
Авторы:

Yiran Hu, Nan Jiang, Shanchao Liang, Yi Wu, Lin Tan

#### Контекст Тест-драйвенное разработки (Test-Driven Development, TDD) — это методология программирования, в рамках которой разработчики создают тесты одновременно с реализацией кода, чтобы обеспечить непрерывный контроль и улучшение функциональности программ. В появившемся вибе-кодинге, где разработчики передают роль написания кода системам на основе больших языковых моделей (LLM), опираясь на высокоуровневые цели, TDD становится еще более важным. Тесты в этой системе выступают как исполняемые спецификации, которые определяют и проверяют функционал не только на основе естественного языка или контекста кода. Однако возникает несколько проблем: выбор эффективного набора тестов, эффективное восстановление контекста (например, связанного кода) и систематическое использование тестовых ответов для улучшения системы. Эти проблемы настоятельно подчеркивают необходимость развития TDD в контексте новых технологий. #### Метод TENET — это LLM-агент, разработанный для генерации функций в реальных репозиториях программных проектов, используя TDD-подход. Он включает в себя три основных компонента: (1) механизм выбора тестов, оптимизированного для максимального разнообразия сценариев использования; (2) инструментарий для эффективного поиска соответствующего кода и интерактивного отладки; (3) рабочую процедуру, основанную на анализе ошибок, пополнении контекста и применении корректий в коде. Эти компоненты работают совместно для повышения точности генерации кода и уменьшения рабочего нагрузки. #### Результаты Используя две б BENCHMARK-базы данных, RepoCod и RepoEval, TENET показал высокую эффективность. Процент Pass@1 — 69.08% и 81.77% соответственно — значительно превосходит результаты других существующих агентов. Эксперименты показали, что выбор тестов с максимальным разнообразием сценариев и интерактивная отладка значительно повышают качество кода. Это первое исследование, которое изучает влияние разных аспектов тестов на результаты LLM-агентов в контексте TDD. #### Значимость Результаты TENET открывают пути к более эффективному TDD в ситуациях, когда разработка использует вибе-кодинг. Этот подход может быть применен в различных областях программирования, где необходимо быстро и качественно генерировать код, обеспечивая его работоспособность. Благодаря TENET улучшается степень контроля за качеством кода и экономится время разработчиков. #### Выводы TENET доказывает, что тесты в TDD могут быть значительно улучшены с использованием LLM-агентов, что привносит новые возможности в программирование. Будущие ис
Annotation:
Test-Driven Development (TDD) is a widely adopted software engineering practice that requires developers to create and execute tests alongside code implementation, ensuring that software behavior is continuously validated and refined. In the era of vibe coding, where developers increasingly delegate code writing to large language models (LLMs) by specifying high-level intentions, TDD becomes even more crucial, as test cases serve as executable specifications that explicitly define and verify int...
ID: 2509.24148v2 cs.SE, cs.AI
Авторы:

Wenxuan Wang, Yongjiang Wu, Junyuan Zhang, Shuqing Li, Yun Peng, Wenting Chen, Shuai Wang, Michael R. Lyu

## Контекст Современные аудио-центричные платформы и приложения, такие как WhatsApp и Twitter, изменили методы общения и обмена аудиоконтентом в современном обществе. Однако эти платформы часто используются для распространения вредоносного аудиоконтента, такого как ненавистная речь, обманные рекламные объявления и жестокость, что может вызвать серьезные негативные последствия, в том числе нарушения психического здоровья. Чтобы бороться с этим, разработчики и исследователи создают и развертывают средства модерации аудиоконтента. Несмотря на эти усилия, злоумышленники могут обходить модерацию, изменяя аудиоконтент подробно, например, изменяя тональность или вставляя шум. Тем не менее, эффективность современных аудио-модерационных инструментов против таких угроз остается недостаточно исследована. Для решения этих проблем мы предлагаем MTAM, фреймворк метаморфонного тестирования для аудио-контент-модерационных систем. ## Метод MTAM основывается на метаморфонном тестировании, которое применяет метаморфонные связи для генерирования тестовых случаев, которые остаются вредоносными, но с большей вероятностью провалиться модерацию. В нашем исследовании мы определили 14 метаморфонных связей на двух категориях подкрутки: Основанные на аудио-функциях и Неправильные. Тестируемым объектам были представлены 2000 аудио-клипов, применяясь к ним 14 метаморфонных отношений. MTAM используется для тестирования пяти коммерческих моделей модерации, предоставленных Gladia, Assembly AI, Baidu, Nextdata и Tencent, а также одной академической модели. ## Результаты Результаты тестирования показывают, что MTAM достигает следующих значений ошибочных находок (EFR): - 38.6% для коммерческого сервиса Gladia - 18.3% для Assembly AI - 35.1% для Baidu - 16.7% для Nextdata - 51.1% для Tencent - 45.7% для академической модели. Эти результаты указывают на высокую эффективность MTAM в обнаружении вредоносного аудиоконтента, который может провалиться модерацию. ## Значимость Исследование MTAM имеет широкие области применения в модерации аудиоконтента, борьбе с ненавистной речью и злоупотреблениями платформ. Его преимущество в том, что он может обнаруживать незаметные изменения в аудио, которые могут быть пропущены традиционными системами. Это может привести к значительному улучшению модерации контента, уменьшению вредоносных действий и повышению безопасности пользователей. ## Выводы MTAM доказал свою эффективность в обнаружении вредоносного аудиоконтента, который может провалиться модерацию, используя метаморфонные связи. Наша работа показывает, что MTAM может с
Annotation:
The rapid growth of audio-centric platforms and applications such as WhatsApp and Twitter has transformed the way people communicate and share audio content in modern society. However, these platforms are increasingly misused to disseminate harmful audio content, such as hate speech, deceptive advertisements, and explicit material, which can have significant negative consequences (e.g., detrimental effects on mental health). In response, researchers and practitioners have been actively developin...
ID: 2509.24215v1 cs.SE, cs.AI, cs.CL, cs.MM
Авторы:

Yu-Fu Fu, Meng Xu, Taesoo Kim

## Контекст Программное обеспечение становится все более сложным, что приводит к повышению риска ошибок в разработке. Одним из решений этой проблемы является использование спецификаций — формализованных описаний, которые позволяют проверять корректность программных фрагментов. Развитие глубоких машинных узнаваний (LLM) позволило создавать инструменты автоматической генерации спецификаций. Однако, многие из этих инструментов ориентированы на основные языки программирования, такие как C, Java и Solidity. Для новых, верификационно-ориентированных языков, таких как Move, существует мало инструментов. Move — это язык, разработанный для создания безопасных и проверяемых смарт-контрактов. Однако существующие решения для генерации спецификаций для Move оставляют за собой значительные пробелы в качестве и покрытии. Таким образом, цель нашего исследования — разработать инструмент, который может автоматически генерировать высококачественные спецификации для Move, помогая разработчикам создавать более надёжные и верифицируемые смарт-контракты. ## Метод MSG (Agentic Specification Generator) — это система, основанная на глубоких машинных узнаваний, разработанная для автоматической генерации спецификаций для Move-программ. Методология MSG основывается на нескольких ключевых принципах: 1. Использование глубоких машинных узнаваний для понимания и генерации спецификаций. 2. Агентное проектирование, которое позволяет инструменту действовать самостоятельно, принимая решения на основе локальных и глобальных контекстов. 3. Модульность, которая позволяет гибко адаптировать инструмент к различным потребностям и условиям. MSG использует LLM для анализа кода Move и генерирования спецификаций. Он использует модульную архитектуру, которая позволяет ему использовать различные методы для разных стадий процесса: стадию понимания, стадию генерации и стадию верификации. Агентное проектирование позволяет MSG действовать самостоятельно, принимая решения на основе локальных и глобальных контекстов, что повышает качество спецификаций. ## Результаты Мы провели эксперименты с MSG, используя набор тестовых функций из Move. Инструмент удалось генерировать спецификации для 84% тестовых функций, что показывает его эффективность. Более того, MSG удалось идентифицировать ключевые фрагменты спецификаций, которые были пропущены экспертами. Это демонстрирует мощь LLM в понимании и генерации спецификаций для новых языков программирования. Также, выявлено, что использование модульного, агентного подхода повышает качество спецификаций, с 57% большей пропорции верифицируемых кл
Annotation:
While LLM-based specification generation is gaining traction, existing tools primarily focus on mainstream programming languages like C, Java, and even Solidity, leaving emerging and yet verification-oriented languages like Move underexplored. In this paper, we introduce MSG, an automated specification generation tool designed for Move smart contracts. MSG aims to highlight key insights that uniquely present when applying LLM-based specification generation to a new ecosystem. Specifically, MSG d...
ID: 2509.24515v1 cs.SE, cs.AI, cs.CR, cs.PL
Авторы:

Gangda Xiong, Tao Chen

#### Контекст В современной информатике, автоматизация процессов настройки системных параметров (конфигураций) является ключевым заданием для повышения производительности и эффективности. Однако существующие методы часто игнорируют комплексные требования к производительности, такие как заданные целевые показатели (например, латентность должна быть 2 секунды). Вместо этого они предполагают, что любое улучшение производительности является желательным, не учитывая могущественное значение таких требований. Это может привести к затратам больших ресурсов на достижение целей с малой пользой. Несмотря на то, что некоторые исследования предложили включать такие требования в процесс настройки, это приводит к проблемам, таким как преждевременная остановка или неэффективность. Мотивируя данную работу, наша цель заключается в разработке метода, который бы учитывал и учитывал требования к производительности в процессе настройки конфигураций. #### Метод Разработанный метод — **CoTune** — предлагает инновационный подход к настройке конфигураций, основанный на кообеволюционной методологии. CoTune позволяет создавать вспомогательные требования к производительности, которые эволюционируют параллельно с основными требованиями. Эта подходка позволяет гармонично интегрировать требования с конфигурациями, обеспечивая более эффективную настройку. Архитектура CoTune включает в себя несколько ключевых этапов: 1. **Определение вспомогательных требований** — эти требования строятся на основе основных, но имеют достаточную гибкость для поддержки эффективного процесса настройки. 2. **Кообеволюционный механизм** — основная идея состоит в том, чтобы каждому типу требований был присвоен собственный оптимизируемый индекс, что позволяет кообеволюционному алгоритму гибко адаптироваться к изменениям во входных данных. 3. **Оценка эффективности** — метод позволяет выбирать наиболее подходящие конфигурации, основываясь на множественных целях. #### Результаты Исследования проводились на 162 случаях, включая 9 систем и 18 различных требований к производительности. Результаты показали, что CoTune значительно превосходит существующие методы настройки конфигураций. Он был самым эффективным в 90% случаев, при этом другие методы показали результаты от 0% до 35%. Общий выигрыш от применения CoTune достиг 2.9x в сравнении с другими методами. Кроме того, CoTune продемонстрировал лучшую эффективность, требуя меньше ресурсов для достижения оптимальных результатов. #### Значимость Программная сист
Annotation:
To automatically tune configurations for the best possible system performance (e.g., runtime or throughput), much work has been focused on designing intelligent heuristics in a tuner. However, existing tuner designs have mostly ignored the presence of complex performance requirements (e.g., the latency shall ideally be 2 seconds), but simply assume that better performance is always more preferred. This would not only waste valuable information in a requirement but might also consume extensive re...
ID: 2509.24694v1 cs.SE, cs.AI
Авторы:

Joshua Heisler, Johannes Reisinger, Andreas Fischer

## Контекст SAP Joule — это проприетарный генеративный модель, разработанный компанией SAP для различных задач, включая помощь в программировании. Несмотря на то, что Joule в настоящее время не специализируется на языке ABAP для SAP, он может использоваться для генерации кода на других распространенных языках, таких как JavaScript. Из-за отсутствия его направленности на конкретные задачи SAP, этот модель стала интересом для сравнительного анализа. В последнее время генерируемые модели кода становятся все более востребованы, но необходимо понять, насколько эффективны они для решения конкретных задач. Это побудило авторов выполнить одно из первых сравнительных исследований SAP Joule, в котором она проверена на тестировании JavaScript-кода. ## Метод Для сравнения SAP Joule с другими моделями была использована HumanEval-X JavaScript Benchmark, которая включает тестовые сценарии для оценки генерации кода. Модель была сравнена с 29 другими моделями, выбранными из различных семейств генеративных моделей. Результаты оценивались по критерию строгой точности — вероятности того, что модель правильно решила задачу. Для улучшения достоверности результатов, каждый модели было присвоено несколько попыток, чтобы учесть возможности случайности. Этот подход позволял убедиться, что результаты являются объективными и объективно сравниваются. ## Результаты В результате оценки, SAP Joule показала строгую точность 80.49%, что делает ее пятую лучшую модель в оценке. Это результат является весьма успешным, если учитывать, что многие модели были разработаны специально для генерации кода на JavaScript. Кроме того, это указывает, что SAP Joule может быть эффективно использовано в общих задачах генерации кода, даже несмотря на то, что она не специализируется на конкретных языках программирования. В целом, результаты показали значительный потенциал SAP Joule в контексте общего генеративного моделирования. ## Значимость Это исследование имеет значимость для развития интеллектуальных технологий, особенно в области генеративного кодирования. SAP Joule может быть применена в различных сферах, включая не только JavaScript, но и другие языки программирования. Также, результаты указывают на возможность расширения этой модели для более специфических задач, таких как генерация кода на ABAP. Это может привести к повышению производительности программистов и уменьшению времени на разработку приложений. Будущие исследования могут сосредоточиться на улучшении точности SAP Joule для конкретных языков и на предоставлении ей мощных инструментов для широкого применения. ## Выводы SAP Joule доказала свою эффективность в общей генерации кода, показав высокую точность в сравнении с другими моделями. Это открывает
Annotation:
SAP has released its own proprietary generative model SAP Joule, intended for various generative tasks, including serving as a code assistant for software engineers. While Joule is yet not focused on SAP-specific ABAP code generation, it can be used for other common languages, including Javascript. This paper compares SAP Joules Javascript coding capabilities against a total of 29 other models using the HumanEval-X Javascript benchmark. SAP Joule achieves a strict accuracy of 80.49% as the fifth...
ID: 2509.24828v1 cs.SE, cs.AI
Авторы:

Cristian Augusto, Antonia Bertolino, Guglielmo De Angelis, Francesca Lonetti, Jesús Morán

## Контекст Large Language Models (LLMs) являются одним из самых значительных исследовательских направлений в области тестирования программного обеспечения. Они успешно применяются для выполнения задач, таких как генерация тестовых кодов и сводка документации. Этот потенциал привлек сотни исследователей, что привело к появлению десятков новых работ каждый месяц. Однако до сих пор не было обзора, описывающего область LLMs в тестировании программного обеспечения в подробном и структурированном виде. В настоящей статье предлагается такой обзор, предоставляя план развития LLMs в этой области, категоризируя существующие работы и определяя активные направления исследований. Данный подход позволяет понять текущее состояние LLMs в тестировании, а также определить долгосрочные возможности и вызовы. ## Метод Чтобы получить общее представление о росте LLMs в тестировании программного обеспечения, авторы проводили поиск и анализ статей, используя семи-систематическую литературную revue. Они структурировали работы по разным темам, описывая текущий статус LLMs в тестировании программного обеспечения, а также исследовали направления для дальнейших исследований. Архитектура исследования включает в себя два этапа: сбор статей и оценку их качества, а также анализ и группировку по темам, чтобы получить полное представление о текущем состоянии LLMs в тестировании программного обеспечения. ## Результаты В ходе работы были идентифицированы и анализированы многочисленные работы, выделив основные категории, такие как генерация тестовых кодов, динамическое тестирование, анализ требований и документации. Было установлено, что LLMs показывают эффективность в таких задачах, как генерация упрощенных тестовых сценариев, а также в автоматизации рутинных задач тестирования. Несмотря на прогресс, были выявлены некоторые проблемы, такие как недостаточная точность в генерации кода и недостаток широкой выборки для тестирования LLMs-приложений. ## Значимость LLMs могут быть применены в различных сферах тестирования, включая автоматизированную генерацию тестовых сценариев, тестирование адаптивности и работу с документацией. Они облегчают процессы, делают их более эффективными и уменьшают время, потраченное на рутинные задачи тестирования. Лонгитюдное влияние LLMs может быть относительно трансформации процессов тестирования программного обеспечения, повышением уровня автоматизации и повышением качества продуктов, создаваемых благодаря LLMs. ## Выводы Основными достижениями в сфере LLMs в тестировании являются прогресс в генерации тестовых кодов, улучшение анализа
Annotation:
Large Language Models (LLMs) are starting to be profiled as one of the most significant disruptions in the Software Testing field. Specifically, they have been successfully applied in software testing tasks such as generating test code, or summarizing documentation. This potential has attracted hundreds of researchers, resulting in dozens of new contributions every month, hardening researchers to stay at the forefront of the wave. Still, to the best of our knowledge, no prior work has prov...
ID: 2509.25043v1 cs.SE, cs.AI
Авторы:

Junkai Chen, Huihui Huang, Yunbo Lyu, Junwen An, Jieke Shi, Chengran Yang, Ting Zhang, Haoye Tian, Yikun Li, Zhenhao Li, Xin Zhou, Xing Hu, David Lo

#### Контекст Large language models (LLM), внедренные в код, провоцируют значительное изменение в сфере разработки программного обеспечения, автоматизируя такие задачи, как тестирование, отладка и исправление. Однако огромные возможности LLMs сопряжены с необходимостью решать проблему безопасности генерируемого ими кода. Небезопасный код может привести к значительным проблемам, таким как утечки данных, взломы и другие уязвимости. Существующие бенчмарки, ориентированные на проверку кода на безопасность, полезны, но имеют ограничения: они часто не учитывают контекст внедрения уязвимостей или используют тестовые протоколы, не полностью отражающие реальную сложность ситуаций. Из-за этого, оценка безопасности генерируемого кода остается недостаточно точной. Чтобы устранить эти проблемы, мы предлагаем **SecureAgentBench** – новый бенчмарк, содержащий 105 задач, который позволяет тщательно оценивать способность кода-агентов генерировать безопасный код в реальных условиях. #### Метод **SecureAgentBench** строится на основе 105 реалистичных задач, требующих редактирования нескольких файлов в больших репозиториях. Для каждой задачи мы вводим контекст, основанный на настоящих открытых исходных кодах, где были отслежены точки внедрения уязвимостей. Наша методика включает три ключевых аспекта: (i) **тестирование функциональности**, чтобы убедиться, что решение корректно выполняет задачу, (ii) **проверка уязвимостей** с помощью создания proof-of-concept exploits, и (iii) **детектирование новых уязвимостей**, внедренных агентом в код. Бенчмарк работает с тремя современными большими лингвистическими моделями (LLMs): Claude 3.7 Sonnet, GPT-4.1 и DeepSeek-V3.1. Эти модели были использованы для сгенерированного кода, который последующим образом проверялся на наличие уязвимостей и структурных ошибок. #### Результаты Наши эксперименты показали, что хотя LLM-агенты способны генерировать код, который функционирует правильно, они сильно страдают в безопасности. Наилучший результат показал SWE-agent, поддерживаемый DeepSeek-V3.1, который смог выполнить 15.2% задач, сочетающих безопасность и функциональность. Однако даже в этом случае некоторые функционально корректные решения все равно включали в себя новые, незарегистрированные ранее, уязвимости. Заметим, что простой добавлением инструкций по безопасному программированию нельзя полностью решить эту проблему. Эти результаты подтверждают необходимость дальнейшего исследования для создания безопасных кодогенерирующих агентов. #### Значимость **SecureAgentBench** может быть применен в различных областях, включая соз
Annotation:
Large language model (LLM) powered code agents are rapidly transforming software engineering by automating tasks such as testing, debugging, and repairing, yet the security risks of their generated code have become a critical concern. Existing benchmarks have offered valuable insights but remain insufficient: they often overlook the genuine context in which vulnerabilities were introduced or adopt narrow evaluation protocols that fail to capture either functional correctness or newly introduced ...
ID: 2509.22097v1 cs.SE, cs.AI, cs.CL, cs.CR
Показано 201 - 210 из 341 записей