📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 DUALGUAGE: Automated Joint Security-Functionality Benchmarking for Secure Code Generation

2025-11-27

Авторы:

Abhijeet Pathak, Suvadra Barua, Dinesh Gudimetla, Rupam Patir, Jiawei Guo, Hongxin Hu, Haipeng Cai

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) and autonomous coding agents are increasingly used to generate software across a wide range of domains. Yet a core requirement remains unmet: ensuring that generated code is secure without compromising its functional correctness. Existing benchmarks and evaluations for secure code generation fall short-many measure only vulnerability reduction, disregard correctness preservation, or evaluate security and functionality on separate datasets, violating the fundamental n...

ID: 2511.20709v1 cs.SE, cs.AI, cs.CR

arXiv PDF

📄 A Self-Improving Architecture for Dynamic Safety in Large Language Models

2025-11-15

Авторы:

Tyler Slater

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Context: The integration of Large Language Models (LLMs) into core software systems is accelerating. However, existing software architecture patterns are static, while current safety assurance methods are not scalable, leaving systems vulnerable to novel adversarial threats. Objective: To design, implement, and evaluate a novel software architecture that enables an AI-driven system to autonomously and continuously adapt its own safety protocols at runtime. Method: We propose the Self-Improvi...

ID: 2511.07645v1 cs.SE, cs.AI, cs.CR

arXiv PDF

📄 RefleXGen:The unexamined code is not worth using

2025-10-30

Авторы:

Bin Wang, Hui Li, AoFan Liu, BoTao Yang, Ao Yang, YiLu Zhong, Weixiang Huang, Yanping Zhang, Runhuai Huang, Weimin Zeng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Security in code generation remains a pivotal challenge when applying large language models (LLMs). This paper introduces RefleXGen, an innovative method that significantly enhances code security by integrating Retrieval-Augmented Generation (RAG) techniques with guided self-reflection mechanisms inherent in LLMs. Unlike traditional approaches that rely on fine-tuning LLMs or developing specialized secure code datasets - processes that can be resource-intensive - RefleXGen iteratively optimizes ...

ID: 2510.23674v1 cs.SE, cs.AI, cs.CR

arXiv PDF

📄 Leveraging Large Language Models for Cybersecurity Risk Assessment -- A Case from Forestry Cyber-Physical Systems

2025-10-10

Авторы:

Fikret Mert Gültekin, Oscar Lilja, Ranim Khojah, Rebekka Wohlrab, Marvin Damschen, Mazen Mohamad

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In safety-critical software systems, cybersecurity activities become essential, with risk assessment being one of the most critical. In many software teams, cybersecurity experts are either entirely absent or represented by only a small number of specialists. As a result, the workload for these experts becomes high, and software engineers would need to conduct cybersecurity activities themselves. This creates a need for a tool to support cybersecurity experts and engineers in evaluating vulnerab...

ID: 2510.06343v1 cs.SE, cs.AI, cs.CR

arXiv PDF

📄 Agentic Specification Generator for Move Programs

2025-10-01

Авторы:

Yu-Fu Fu, Meng Xu, Taesoo Kim

## Контекст Программное обеспечение становится все более сложным, что приводит к повышению риска ошибок в разработке. Одним из решений этой проблемы является использование спецификаций — формализованных описаний, которые позволяют проверять корректность программных фрагментов. Развитие глубоких машинных узнаваний (LLM) позволило создавать инструменты автоматической генерации спецификаций. Однако, многие из этих инструментов ориентированы на основные языки программирования, такие как C, Java и Solidity. Для новых, верификационно-ориентированных языков, таких как Move, существует мало инструментов. Move — это язык, разработанный для создания безопасных и проверяемых смарт-контрактов. Однако существующие решения для генерации спецификаций для Move оставляют за собой значительные пробелы в качестве и покрытии. Таким образом, цель нашего исследования — разработать инструмент, который может автоматически генерировать высококачественные спецификации для Move, помогая разработчикам создавать более надёжные и верифицируемые смарт-контракты. ## Метод MSG (Agentic Specification Generator) — это система, основанная на глубоких машинных узнаваний, разработанная для автоматической генерации спецификаций для Move-программ. Методология MSG основывается на нескольких ключевых принципах: 1. Использование глубоких машинных узнаваний для понимания и генерации спецификаций. 2. Агентное проектирование, которое позволяет инструменту действовать самостоятельно, принимая решения на основе локальных и глобальных контекстов. 3. Модульность, которая позволяет гибко адаптировать инструмент к различным потребностям и условиям. MSG использует LLM для анализа кода Move и генерирования спецификаций. Он использует модульную архитектуру, которая позволяет ему использовать различные методы для разных стадий процесса: стадию понимания, стадию генерации и стадию верификации. Агентное проектирование позволяет MSG действовать самостоятельно, принимая решения на основе локальных и глобальных контекстов, что повышает качество спецификаций. ## Результаты Мы провели эксперименты с MSG, используя набор тестовых функций из Move. Инструмент удалось генерировать спецификации для 84% тестовых функций, что показывает его эффективность. Более того, MSG удалось идентифицировать ключевые фрагменты спецификаций, которые были пропущены экспертами. Это демонстрирует мощь LLM в понимании и генерации спецификаций для новых языков программирования. Также, выявлено, что использование модульного, агентного подхода повышает качество спецификаций, с 57% большей пропорции верифицируемых кл

Annotation:

While LLM-based specification generation is gaining traction, existing tools primarily focus on mainstream programming languages like C, Java, and even Solidity, leaving emerging and yet verification-oriented languages like Move underexplored. In this paper, we introduce MSG, an automated specification generation tool designed for Move smart contracts. MSG aims to highlight key insights that uniquely present when applying LLM-based specification generation to a new ecosystem. Specifically, MSG d...

ID: 2509.24515v1 cs.SE, cs.AI, cs.CR, cs.PL

arXiv PDF

📄 Semantic-Aware Fuzzing: An Empirical Framework for LLM-Guided, Reasoning-Driven Input Mutation

2025-09-26

Авторы:

Mengdi Lu, Steven Ding, Furkan Alaca, Philippe Charland

## Контекст Многочисленные проблемы безопасности в системах, таких как Интернет вещей (IoT), мобильные платформы и автоматизированные системы, становятся все более критичными. Традиционные мутационные методы тестирования, такие как fuzzing, эффективно исследуют код, но часто ограничиваются мутациями в пределах байтов или битов, не учитывая семантическую логику и синтаксические зависимости. Автоматизированные инструменты, такие как AFL++, используют словари, грамматики и гибридные техники для применения структурных ограничений, но не полностью раскрывают глубинные семантические зависимости и отраслевые требования. С другой стороны, мощные технологии тестирования, основанные на технологиях ИИ и глубокого обучения, такие как модели Больших Языковых Моделей (LLMs), могут использоваться для семантического понимания структуры информации, предлагая более эффективные и точные мутации, что повышает качество тестирования. Однако отсутствие "правильного" метода мутации делает применение супервизированного обучения нецелесообразным, что приводит к заинтересованности в использовании нескольких способов мутации на основе заданий. В нашей работе мы сочетаем возможности LLMs с традиционным методом fuzzing, ориентируясь на ассинхронность и различные специфики тестирования. ## Метод Предлагаемая микросервисная архитектура объединяет методы тестирования fuzzing с моделями Больших Языковых Моделей (LLMs), используя структуру открытого фреймворка AFL++. Мы используем техники few-shot learning для обучения моделей LLM в режиме предварительной подготовки к работе. В качестве моделей используются Deepseek-r1-Distill-Llama-70B, Llama3.3, QwQ-32B и Gemma3. Мы разработали новый алгоритм, который включает модель LLM в цикл мутации, что позволяет ей анализировать интерфейсную логику, выявлять зависимости между полями и создавать высококачественные инструменты fuzzing. Таким образом, мы стремимся решить несколько задач: (R1) обеспечить интеграцию LLMs в модель fuzzing, (R2) исследовать качество мутаций, полученных с помощью few-shot способа, (R3) проверить влияние преобразований на выборку входных данных, а (R4) протестировать конкретные модели LLM для использования в таких средах. ## Результаты Мы проводили эксперименты с помощью 4 моделей LLM, используя протоколы запросов и анализ функционального поведения. Для оценки качества мутаций мы применяли метрики сложности и выявляли значимость мутаций в реальных сценариях. Мы демонстрируем, что Deepseek-r1-Distill-Llama-70B показал высокую эффективность в создании высококачественных мутаций, лучше отражающих слож

Annotation:

Security vulnerabilities in Internet-of-Things devices, mobile platforms, and autonomous systems remain critical. Traditional mutation-based fuzzers -- while effectively explore code paths -- primarily perform byte- or bit-level edits without semantic reasoning. Coverage-guided tools such as AFL++ use dictionaries, grammars, and splicing heuristics to impose shallow structural constraints, leaving deeper protocol logic, inter-field dependencies, and domain-specific semantics unaddressed. Convers...

ID: 2509.19533v1 cs.SE, cs.AI, cs.CR

arXiv PDF

📄 Orion: Fuzzing Workflow Automation

2025-09-20

Авторы:

Max Bazalii, Marius Fleischer

## Контекст Fuzz testing является одной из самых эффективных техник для обнаружения уязвимостей в программном обеспечении. Современные fuzzer могут автоматически генерировать входные данные и отслеживать выполнение программ, но всё то же полное рабочее процесс fuzzing — от анализа кода до конфигурации харнесов и триажирования результатов — всё ещё требует значительных усилий от разработчиков. Ранее разработанные решения фокусировались только на отдельных этапах, таких как генерация харнесов или сокращение входных данных, заставляя исследователей самостоятельно связывать эти этапы в единый процесс fuzzing. ## Метод Orion — это рамформа, которая автоматизирует ключевые этапы fuzzing, объединяя технологии значительного языка (LLM) с традиционными инструментами. Orion использует мощь LLMs для кода логики и семантического руководства, в то же время полагаясь на детерминированные инструменты для проверки, итеративной рефинментации и задач, требующих точности. Этот подход позволяет Orion скейлиться в сценариях, где традиционно требовалось значительное человеческое усилие. ## Результаты Исследователи проверили Orion на различных бенчмарках, демонстрируя его эффективность. Фреймворк уменьшил человеческое усилие на 46–204 раз в зависимости от этапа рабочего процесса. Также были обнаружены две новые уязвимости в широко используемой библиотеке clib, которые ранее были неизвестны. Эти результаты доказывают устойчивость и эффективность Orion в автоматизации fuzzing. ## Значимость Orion может применяться в различных областях, где fuzzing играет ключевую роль, таких как безопасность программного обеспечения, тестирование и аудит. Основные преимущества включают автоматизацию рутинных задач, сокращение времени разработки, увеличение точности и гибкость при масштабировании. Это может привести к значительным улучшениям в обнаружении уязвимостей и упрощению процесса тестирования. ## Выводы Orion представляет собой перспективный подход к автоматизации fuzzing, который может реvolutionize обнаружение уязвимостей. Будущие исследования будут фокусироваться на расширении функциональности, улучшении точности и расширении применимости фреймворка в различных технологических сферах.

Annotation:

Fuzz testing is one of the most effective techniques for finding software vulnerabilities. While modern fuzzers can generate inputs and monitor executions automatically, the overall workflow, from analyzing a codebase, to configuring harnesses, to triaging results, still requires substantial manual effort. Prior attempts focused on single stages such as harness synthesis or input minimization, leaving researchers to manually connect the pieces into a complete fuzzing campaign. We introduce Ori...

ID: 2509.15195v1 cs.SE, cs.AI, cs.CR, D.4.6; I.2.2; D.2.5

arXiv PDF

📄 Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning

2025-09-19

Авторы:

Zhaoyang Chu, Yao Wan, Zhikun Zhang, Di Wang, Zhou Yang, Hongyu Zhang, Pan Zhou, Xuanhua Shi, Hai Jin, David Lo

## Контекст Код языковые модели (Code Language Models, CLMs) набирают популярность в сфере программирования, позволяя выполнять такие задачи, как генерация и сводка кода. Однако недавние исследования показали, что эти модели могут хранить в своем знании конфиденциальную информацию, содержащуюся в обучающих данных. Это становится возможным благодаря их способности воспроизводить такие данные при определенных запросах. Адресуя эту проблему, ранее предлагались способы, такие как удаление дубликатов из обучающих данных и применение методов частичной приватности, но эти методы требуют полной переучивания модели, что является ресурсоемким и дорогостоящим. Наша работа посвящена изучению возможности эффективного и экономичного удаления конфиденциальных данных из CLMs с помощью метода машинного неучения (machine unlearning). ## Метод Мы разработали многоэтапную методологию для изучения меморизации конфиденциальных данных в моделях CLMs. Сначала определили риски меморизации, связанные с конкретными участками данных, и сформировали высокорискованный набор данных, содержащий 50 000 примеров, требующих удаления. Затем рассмотрели два популярных метода машинного неучения, основанных на градиентном подъеме, и ввёл CodeEraser - расширенную модификацию, которая удаляет выбранные куски кода, содержащие конфиденциальную информацию, при этом сохраняя целостность и функциональность остальных частей модели. ## Результаты Для оценки эффективности нашего подхода провели тщательные эксперименты на трех моделях CLM: CodeParrot, CodeGen-Mono и Qwen2.5-Coder. Мы измерили уровень удаления конфиденциальной информации, а также проверяли неизменность функциональности моделей после неучения. Наши результаты показали, что CodeEraser эффективно удаляет целевую конфиденциальную информацию, при этом сохраняя высокую производительность моделей. ## Значимость Метод CodeEraser может использоваться в различных приложениях, где необходимо обеспечить безопасность и конфиденциальность данных, такие как разработка программного обеспечения, диагностика и устранение неисправностей. Он предоставляет преимущества в виде экономии ресурсов в плане вычислений по сравнению с пересборкой моделей. Наши работы могут повлиять на развитие безопасности и приватности моделей глубокого обучения в сфере программирования. ## Выводы Мы представили CodeEraser - первый подход к удалению конфиденциальной информации из CLMs через машинное неучение, без необходимости полной переучивания модели. Наши эксперименты подтвердили высокую эффективность и экономичность этого подхода. Мы планируем продолжать работу в области неучения и применения этих м

Annotation:

While Code Language Models (CLMs) have demonstrated superior performance in software engineering tasks such as code generation and summarization, recent empirical studies reveal a critical privacy vulnerability: these models exhibit unintended memorization of sensitive training data, enabling verbatim reproduction of confidential information when specifically prompted. To address this issue, several approaches, including training data de-duplication and differential privacy augmentation, have be...

ID: 2509.13755v1 cs.SE, cs.AI, cs.CR

arXiv PDF

📄 AutoStub: Genetic Programming-Based Stub Creation for Symbolic Execution

2025-09-12

Авторы:

Felix Mächtle, Nils Loose, Jan-Niclas Serr, Jonas Sander, Thomas Eisenbarth

#### Контекст Symbolic execution является важной техникой для проверки программ, позволяющей изучать различные пути выполнения программы, используя символьные значения в качестве входных данных. Однако, эта техника сталкивается с ограничениями при столкновении с внешними функциями, такими как собственные методы или библиотеки, которые не входят в базовую программу. Традиционные методы прибегают к дополнительному контексту, дорогостоящим SMT-решателям или ручным вмешательствам, чтобы описать эти функции с помощью символьных макетов. Это создает проблемы в ситуациях, когда требуется автоматизированный подход для обхода этих ограничений. Мы предлагаем новую методику, которая автоматически генерирует символьные макеты для внешних функций во время символьного выполнения, используя генетическое программирование. #### Метод Метод AutoStub включает в себя несколько основных этапов. Когда символьный выполнятель сталкивается с внешней функцией, AutoStub начинает генерировать тренировочные данные, выполняя функцию на случайно сгенерированных входных значениях и записывая результаты. Затем, генетическое программирование использует эти данные для вывода выражений, которые приближаются к поведению функции. Эти выражения являются символьными макетами, которые могут быть использованы в символьном выполнении, не требуя дополнительных усилий от человека. Этот подход позволяет улучшить процесс тестирования, обойдя ограничения, связанные с внешними функциями. #### Результаты Мы провели ряд экспериментов, используя различные программные системы, чтобы оценить эффективность AutoStub. Наши результаты показали, что метод способен аппроксимировать внешние функции с точностью более 90% для 55% оценок, и может выявлять специфичные для языка функции, которые могут вызывать серьезные ошибки во время тестирования. Помимо этого, мы проверили, насколько эти символьные макеты позволяют расширить область программных путей для тестирования и повысить точность выявления ошибок. #### Значимость AutoStub может быть применен в различных сферах, где требуется автоматизированное тестирование программного обеспечения, включая безопасность, проверку соответствия стандартам и отладку. Основное преимущество заключается в том, что он упрощает процесс тестирования, уменьшая необходимость вручную создавать макеты, что может быть очень времязатратным и неточным. Этот подход также может обнаруживать скрытые ошибки и edge cases, которые в противном случае оставались бы незамеченными. Мы предлагаем, что развитие таких автоматизированных методов может привести к значительным улучшениям

Annotation:

Symbolic execution is a powerful technique for software testing, but suffers from limitations when encountering external functions, such as native methods or third-party libraries. Existing solutions often require additional context, expensive SMT solvers, or manual intervention to approximate these functions through symbolic stubs. In this work, we propose a novel approach to automatically generate symbolic stubs for external functions during symbolic execution that leverages Genetic Programmin...

ID: 2509.08524v1 cs.SE, cs.AI, cs.CR

arXiv PDF

📄 An Empirical Study of Vulnerabilities in Python Packages and Their Detection

2025-09-06

Авторы:

Haowei Quan, Junjie Wang, Xinzhe Li, Terry Yue Zhuo, Xiao Chen, Xiaoning Du

## Контекст Python — одна из наиболее популярных и удобных языков программирования, чье простое синтаксисное оформление, широкий спектр применений и богатый экосистема сделали его широко распространенным в современном программном обеспечении. Однако, несмотря на все преимущества, Python-пакеты часто становятся источником безопасностных уязвимостей. Это происходит в связи с тем, что Python часто используется в сочетании с другими языками для повышения производительности или обеспечения интерапредельности. Уязвимости в Python-пакетах могут привести к серьезным проблемам в системах, где эти пакеты используются. Несмотря на то, что существуют различные инструменты для обнаружения и анализа уязвимостей, их эффективность в реальных условиях и полнота остаются неизведанными. Описываемая работа посвящена разработке PyVul — первого полномасштабного бенчмарка для обнаружения уязвимостей в Python-пакетах. PyVul включает в себя 1157 уязвимостей, подтвержденных разработчиками, и работает с разными методами обнаружения, включая метки на уровне коммитов и функций. ## Метод PyVul уже стал первым полномасштабным бенчмарком для обнаружения уязвимостей в Python-пакетах. Он включает в себя 1157 уязвимостей, подтвержденных разработчиками, и предлагает метки, которые могут использоваться для тренировки различных моделей фиксации уязвимостей. Для обеспечения точности и качества данных использовано LLM-обученное алгоритм распознавания, которое позволило достичь 100% точности на уровне коммитов и 94% на уровне функций. Бенчмарк также включает подробные анализы распределения уязвимостей в PyVul, показывая, что они могут затрагивать множество языков программирования и иметь разнообразные виды. Это показывает, что многоязычные Python-пакеты могут быть более уязвимы к уязвимостям. Из PyVul также могут быть извлечены важные выводы о состоянии существующих инструментов и путях их улучшения. ## Результаты PyVul был полностью протестирован на различных данных и сравнивался с текущими инструментами для обнаружения уязвимостей. Экспериментальные результаты показали, что существующие инструменты не всегда удается обнаруживать все виды уязвимостей, в частности те, которые затрагивают многоязычные пакеты. Обнаруженным было, что большинство существующих инструментов не удается обеспечить высокую точность на уровне функций. Однако PyVul, благодаря своему точному меткам, позволяет существенно повысить точность обнаружения уязвимостей в реальных условиях. Также был проведен анализ распределения уязвимостей в различных видах, показав, что в PyV

Annotation:

In the rapidly evolving software development landscape, Python stands out for its simplicity, versatility, and extensive ecosystem. Python packages, as units of organization, reusability, and distribution, have become a pressing concern, highlighted by the considerable number of vulnerability reports. As a scripting language, Python often cooperates with other languages for performance or interoperability. This adds complexity to the vulnerabilities inherent to Python packages, and the effective...

ID: 2509.04260v1 cs.SE, cs.AI, cs.CR

arXiv PDF

Показано 1 - 10 из 11 записей