📚 Саммари научных статей из arXiv

Найдено 341 результатов по запросу 'cs.SE, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GitHub's Copilot Code Review: Can AI Spot Security Flaws Before You Commit?

2025-09-19

Авторы:

Amena Amro, Manar H. Alalfi

#### Контекст В последние годы становится все более актуальным использование искусственного интеллекта (ИИ) в области разработки программного обеспечения. GitHub Copilot — это популярный AI-дисциплинарный инструмент, предназначенный для ускорения процесса разработки кода, предлагая автоматические кода и подсказки. Несмотря на эти преимущества, возникает вопрос о том, насколько эффективен Copilot в обнаружении проблем безопасности в коде. Недостаточная безопасность приводит к повышенному риску вторжений, утечкам данных и другим критическим проблемам. Эта проблема мотивирует исследователей изучать, насколько эффективно Copilot в детектировании критических уязвимостей, таких как SQL-инъекции или скрытые ошибки в сериализации данных. #### Метод Для оценки эффективности Copilot в обнаружении уязвимостей безопасности была создана специальная выборка тестовых фрагментов кода, включающих различные уязвимости, такие как SQL-инъекции, XSS и небезопасное десериализованные данные. Эта выборка была сформирована из открытых источников и представляла собой код на разных языках программирования. Исследователи использовали Copilot для анализа этого кода, оценивая качество предложенных правок и степень обнаружения уязвимостей. Результаты эксперимента были сравнивались с результатами специализированных инструментов для обнаружения уязвимостей. #### Результаты Изучение показало, что Copilot не смог обнаружить многие критические уязвимости, такие как SQL-инъекции и XSS. Его отзывы ограничивались обнаружением менее критических проблем, таких как стиль кодирования и опечатки. Когда инструмент обнаружил уязвимость, его рекомендации часто были неполными или неточными. В сравнении с специализированными безопасностными инструментами, Copilot оказался значительно менее эффективным в обнаружении и исправлении жизнедлящих уязвимостей. #### Значимость Полученные результаты имеют значительное значение для развития инструментов систем безопасности. Изучение недостатков Copilot может привести к улучшению его алгоритмов и внедрению более эффективных средств для обнаружения уязвимостей. Инструменты, использующие ИИ, могут стать частью широкого экосистемы безопасности, но они должны использоваться в сочетании с ручными кодевыми проверками и специализированными точечными решениями. Это также демонстрирует необходимость продолжения развития методов, которые могут обеспечивать безопасность в широком диапазоне ситуаций. #### Выводы Исследование показало, что Copilot, несмотря на свою полезность в качестве помощника в программировании, не полностью готов выполнять функции серьезно

Annotation:

As software development practices increasingly adopt AI-powered tools, ensuring that such tools can support secure coding has become critical. This study evaluates the effectiveness of GitHub Copilot's recently introduced code review feature in detecting security vulnerabilities. Using a curated set of labeled vulnerable code samples drawn from diverse open-source projects spanning multiple programming languages and application domains, we systematically assessed Copilot's ability to identify an...

ID: 2509.13650v1 cs.SE, cs.AI

arXiv PDF

📄 Prompt Stability in Code LLMs: Measuring Sensitivity across Emotion- and Personality-Driven Variations

2025-09-19

Авторы:

Wei Ma, Yixiao Yang, Jingquan Ge, Xiaofei Xie, Lingxiao Jiang

## Контекст Инструменты сгенерированных кодов становятся важной частью развития программного обеспечения, обеспечивая быстроту и эффективность процессов. Однако вопрос их устойчивости к различным стилям и эмоциональным цветовую тунельность не получила должного внимания. Отличительным характеристикой языковых моделей является их чувствительность к тому, как запросы (prompts) сформулированы. Это может привести к разным результатам даже при похожих входных спецификациях. Например, запросы с разными эмоциями или личностными характеристиками могут привести к разным решениям. Несмотря на то, что бенчмарки часто фокусируются на максимальной производительности, менее уделяется внимания стability (устойчивости) в контексте множества вариантов запросов. Для устранения этой проблемы был разработан PromptSE (Prompt Sensitivity Evaluation), который оценивает устойчивость моделей к разным стилям запросов. ## Метод PromptSE работает как фреймворк для оценки устойчивости моделей генерации кода. Он симулирует различные стили запросов, используя шаблоны для эмоций и личностных характеристик. Это позволяет создавать семантически эквивалентные варианты запросов. Метод оценивает устойчивость модели двумя способами: используя продольный скор по вероятностям (logits) или бинарный подход, когда на выходе модели нет logits. Эта модель включает в себя метрику AUC-E (Area Under Curve for Emotion), позволяющую сравнивать модели по устойчивости. Фреймворк может быть использован как для закрытых моделей, так и для исследований в условиях лаборатории. ## Результаты В ходе исследования протестированы 14 моделей генерации кода из трех семейств: Llama, Qwen и DeepSeek. Исследование показало, что производительность и устойчивость работают как независимые цели оптимизации. Некоторые модели (например, Qwen) показали высокую производительность но менее устойчивость, в то время как другие (например, Llama) демонстрировали более стабильные результаты с менее высокой производительностью. Архитектурные и масштабные паттерны были выявлены, которые опровергают типичные представления о робастности моделей. Эти находки подчеркивают, что устойчивость является ключевым аспектом, который должен быть рассмотрен вместе с производительностью и справедливостью в моделировании. ## Значимость Разработанный PromptSE позволяет определить trade-offs между производительностью и устойчивостью, что очень полезно для выбора моделей в зависимости от конкретных задач. Этот фреймворк может применяться в сфере AI-помощников для разработки программного обеспечения, повышая надежность и наглядность. Эта работа расширяет область оценки моделей, добав

Annotation:

Code generation models are widely used in software development, yet their sensitivity to prompt phrasing remains under-examined. Identical requirements expressed with different emotions or communication styles can yield divergent outputs, while most benchmarks emphasize only peak performance. We present PromptSE (Prompt Sensitivity Evaluation), a framework that creates semantically equivalent prompt variants with emotion and personality templates, and that evaluates stability using probability a...

ID: 2509.13680v1 cs.SE, cs.AI

arXiv PDF

📄 Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning

2025-09-19

Авторы:

Zhaoyang Chu, Yao Wan, Zhikun Zhang, Di Wang, Zhou Yang, Hongyu Zhang, Pan Zhou, Xuanhua Shi, Hai Jin, David Lo

## Контекст Код языковые модели (Code Language Models, CLMs) набирают популярность в сфере программирования, позволяя выполнять такие задачи, как генерация и сводка кода. Однако недавние исследования показали, что эти модели могут хранить в своем знании конфиденциальную информацию, содержащуюся в обучающих данных. Это становится возможным благодаря их способности воспроизводить такие данные при определенных запросах. Адресуя эту проблему, ранее предлагались способы, такие как удаление дубликатов из обучающих данных и применение методов частичной приватности, но эти методы требуют полной переучивания модели, что является ресурсоемким и дорогостоящим. Наша работа посвящена изучению возможности эффективного и экономичного удаления конфиденциальных данных из CLMs с помощью метода машинного неучения (machine unlearning). ## Метод Мы разработали многоэтапную методологию для изучения меморизации конфиденциальных данных в моделях CLMs. Сначала определили риски меморизации, связанные с конкретными участками данных, и сформировали высокорискованный набор данных, содержащий 50 000 примеров, требующих удаления. Затем рассмотрели два популярных метода машинного неучения, основанных на градиентном подъеме, и ввёл CodeEraser - расширенную модификацию, которая удаляет выбранные куски кода, содержащие конфиденциальную информацию, при этом сохраняя целостность и функциональность остальных частей модели. ## Результаты Для оценки эффективности нашего подхода провели тщательные эксперименты на трех моделях CLM: CodeParrot, CodeGen-Mono и Qwen2.5-Coder. Мы измерили уровень удаления конфиденциальной информации, а также проверяли неизменность функциональности моделей после неучения. Наши результаты показали, что CodeEraser эффективно удаляет целевую конфиденциальную информацию, при этом сохраняя высокую производительность моделей. ## Значимость Метод CodeEraser может использоваться в различных приложениях, где необходимо обеспечить безопасность и конфиденциальность данных, такие как разработка программного обеспечения, диагностика и устранение неисправностей. Он предоставляет преимущества в виде экономии ресурсов в плане вычислений по сравнению с пересборкой моделей. Наши работы могут повлиять на развитие безопасности и приватности моделей глубокого обучения в сфере программирования. ## Выводы Мы представили CodeEraser - первый подход к удалению конфиденциальной информации из CLMs через машинное неучение, без необходимости полной переучивания модели. Наши эксперименты подтвердили высокую эффективность и экономичность этого подхода. Мы планируем продолжать работу в области неучения и применения этих м

Annotation:

While Code Language Models (CLMs) have demonstrated superior performance in software engineering tasks such as code generation and summarization, recent empirical studies reveal a critical privacy vulnerability: these models exhibit unintended memorization of sensitive training data, enabling verbatim reproduction of confidential information when specifically prompted. To address this issue, several approaches, including training data de-duplication and differential privacy augmentation, have be...

ID: 2509.13755v1 cs.SE, cs.AI, cs.CR

arXiv PDF

📄 Who is Introducing the Failure? Automatically Attributing Failures of Multi-Agent Systems via Spectrum Analysis

2025-09-19

Авторы:

Yu Ge, Linna Xie, Zhong Li, Yu Pei, Tian Zhang

#### Контекст Large Language Model Powered Multi-Agent Systems (MASs) широко используются для решения сложных реальных задач, таких как программирование и научные открытия. Несмотря на их перспективные возможности, они не являются идеальными и часто сталкиваются с ошибками. Одной из основных проблем при использовании MASs является необходимость быстро и точно определить, какая агентская деятельность привела к неполадке. Этот процесс, известный как атрибуция неполадок, требует значительных усилий и является затратным в терминах времени и ресурсов. Большинство существующих подходов к атрибуции неполадок требуют ручного анализа или нетранспарентных методов, что порождает затруднения в диагностике и моделировании MASs. #### Метод Мы предлагаем FAMAS (Failure Attribution in Multi-Agent Systems) — первый spectrum-based подход к атрибуции неполадок в MASs. Работа FAMAS основывается на двух основных компонентах: траектории реплея и абстракции, а также spectrum analysis. Метод FAMAS использует периодические выполнения MASs для вычисления вероятности того, что каждая конкретная действие агента стало причиной неполадки. Основной инновацией является специально разработанная формула, которая агрегирует два ключевых фактора: агентские поведенческие характеристики и поведенческие характеристики действий. Эта формула позволяет учитывать активации агентов и действий в траекториях MASs, чтобы определить самое вероятное источником неполадки действие. #### Результаты Мы провели эксперименты с FAMAS на 12 существующих baseline-методах, используя бенчмарк Who and When. Результаты показали, что FAMAS превосходит все существующие подходы в точности и транспарентности при атрибуции неполадок. Мы также показали, что FAMAS может эффективно идентифицировать ответственных агентов в сложных сценариях, включающих множественные агентов и действия. FAMAS подтвердил свою эффективность в реальных условиях, где он выделяет ответственных агентов за неполадки в меньшем количестве выполнений MASs по сравнению с другими методами. #### Значимость Предлагаемый подход FAMAS имеет широкие применения в области автоматизации диагностики и мониторинга MASs. Он позволяет сократить время и усилия, необходимые для атрибуции неполадок, и улучшает прозрачность и надежность MASs. Благодаря ему можно быстрее выявлять и устранять ошибки, что повышает эффективность систем. Мы также выявили, что FAMAS может быть применен в различных областях, таких как программирование, научные открытия и другие сложные задачи, где MASs используются для управления процессами. #### Выводы Результаты наших экспериментов показали, что FAMAS является эффективным инструментом для атри

Annotation:

Large Language Model Powered Multi-Agent Systems (MASs) are increasingly employed to automate complex real-world problems, such as programming and scientific discovery. Despite their promising, MASs are not without their flaws. However, failure attribution in MASs - pinpointing the specific agent actions responsible for failures - remains underexplored and labor-intensive, posing significant challenges for debugging and system improvement. To bridge this gap, we propose FAMAS, the first spectrum...

ID: 2509.13782v1 cs.SE, cs.AI, cs.MA, D.2.2; I.2.1

arXiv PDF

📄 An Empirical Study on Failures in Automated Issue Solving

2025-09-19

Авторы:

Simiao Liu, Fang Liu, Liehao Li, Xin Tan, Yinghao Zhu, Xiaoli Lian, Li Zhang

#### Контекст Автоматическое решение проблем в кодировании (Automated Issue Solving, AIS) является важной задачей в развитии интеллектуальных систем. Она заключается в поиске и исправлении дефектов в коде, находящихся в разных частях кодовой базы. Несмотря на то, что нейросетевые модели, основанные на трансформерах, достигли значительных успехов в этой области, они все еще сталкиваются с значительными неудачами. Одной из наиболее актуальных задач является повышение точности и устойчивости таких систем. Одна из наиболее популярных систем для испытаний и сравнения новых методов является SWE-Bench, широко признанная в сообществе. Однако существующие оценки показывают, что даже эти системы не могут решить большую часть задач, что ограничивает их применение в реальных проектах. Целью данного исследования является повышение понимания основных причин неудач в автоматизированном решении проблем, чтобы можно было выявить слабые места и сформировать направления для будущих улучшений. #### Метод Мы проводили исследование, основываясь на трех лидирующих решениях в области автоматического решения проблем, разнообразных по архитектуре и подходу. Это включило и пайплайн-подобные архитектуры, и agentic-подобные архитектуры. Мы провели эксперименты на основе SWE-Bench-Verified, который представляет собой стандартный бенчмарк для оценки систем AIS. Для каждой системы были измерены значения точности и эффективности в зависимости от различных характеристик задач. Для получения более глубокого понимания ошибок и диагностики слабых мест в системах, мы провели тщательный ручной анализ 150 неудачных случаев. Этот анализ позволил нам сформировать детальную категоризацию ошибок, включающую в себя три основных фазы, 9 главных категорий и 25 подкатегорий. Это позволило выявить основные причины неудач и формировать набор "печатных пальцев" ошибок, отличающих разные архитектуры. #### Результаты Наши эксперименты показали, что существует значительное различие в производительности систем в зависимости от характеристик задач. Например, agentic-системы оказались менее резистентными к некоторым типам ошибок, чем pipeline-системы. Мы также выявили, что главная причина неудач в agentic-системах заключается в подверженности неверному выводу рассуждений (flawed reasoning) и вхождении в "когнитивные застои" (cognitive deadlocks). Эти типы ошибок не позволяют системе выйти из логического затухания, что приводит к неудачам в решении задач. Общая точность систем, улучшенных с помощью нашего нового подхода, Expert-Executor, выmostилась на 22.2% выше, чем у лучшего отдельного агента. Это указывает на то, что система может б

Annotation:

Automated issue solving seeks to autonomously identify and repair defective code snippets across an entire codebase. SWE-Bench has emerged as the most widely adopted benchmark for evaluating progress in this area. While LLM-based agentic tools show great promise, they still fail on a substantial portion of tasks. Moreover, current evaluations primarily report aggregate issue-solving rates, which obscure the underlying causes of success and failure, making it challenging to diagnose model weaknes...

ID: 2509.13941v1 cs.SE, cs.AI, cs.CL

arXiv PDF

📄 Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

2025-09-19

Авторы:

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin Xia

#### Контекст Chain-of-Thought (CoT) reasoning является эффективным методом улучшения бо LLM, позволяющим ему выдавать промежуточные шаги в решении задач, что улучшает точность и устойчивость в таких областях, как ритеметрика, логика и прочие. Однако этот подход связан с высокими затратами ресурсов: длинные выводы увеличивают задержку, потребление памяти и требования к кэшу KV. Эти проблемы особенно актуальны в задачах, связанных со строительством программного обеспечения, где необходима компактность и определенность выводов. Несмотря на то, что CoT улучшает качество решений, полученные результаты показывают, что длинные выводы не всегда являются оптимальными. Это демонстрируется тем, что длинные выводы часто приводят к логическим ошибкам, обрыву вывода и повышенной задержке в вычислениях. В целом, эти наблюдения опровергают предположение о том, что длинное рассуждение всегда приносит пользу, и выделяют необходимость в развитии адаптивных методов контроля цепочки рассуждений. #### Метод Предлагается SEER (Self-Enhancing Efficient Reasoning), адаптивная система контроля CoT, которая уменьшает цену расчетов за счет сокращения длины выводов, при этом сохраняя их точность. Основные элементы SEER: 1. **Best-of-N Sampling**: Метод выбора лучших выводов, призванный повысить точность решений. 2. **Task-Aware Adaptive Filtering**: Фильтрация промежуточных результатов на основе предварительных выводов, чтобы уменьшить ненужную длину выводов и повысить их эффективность. 3. **Dynamic Thresholding**: Динамическая настройка порогов для фильтрации, чтобы адаптироваться к задаче и улучшить производительность. SEER динамически анализирует выходные данные на этапе предварительного расчета, чтобы предотвратить проблемы, такие как неоптимальный выбор длины вывода, задержка и неточности. #### Результаты Исследования проводились на бенчмарках по генерации кода. Результаты показали, что SEER уменьшил длину вывода на 42.1%, что привело к снижению задержки и памяти, необходимой для вычислений. Было получено увеличение точности, так как SEER смог устранить многочисленные логические ошибки и неточности, которые возникали в длинных выводах. Кроме того, SEER удалил большую часть бесконечных циклов, которые часто порождались длинными цепочками рассуждений. В целом, эти результаты доказывают, что SEER эффективно сбалансированно уменьшает затраты на вычисления без ущерба для качества решений. #### Значимость Предлагаемый подход может быть применен в различных областях, где необходимо повысить производительность логических задач. Особенно актуально SEER для задач, связанных с системами программирования и логическими выводами. Его основные преимущества заключаются в том,

Annotation:

Chain-of-Thought (CoT) reasoning enhances Large Language Models (LLMs) by prompting intermediate steps, improving accuracy and robustness in arithmetic, logic, and commonsense tasks. However, this benefit comes with high computational costs: longer outputs increase latency, memory usage, and KV-cache demands. These issues are especially critical in software engineering tasks where concise and deterministic outputs are required. To investigate these trade-offs, we conduct an empirical study based...

ID: 2509.14093v1 cs.SE, cs.AI, cs.CL

arXiv PDF

📄 Evaluating Large Language Models for Functional and Maintainable Code in Industrial Settings: A Case Study at ASML

2025-09-18

Авторы:

Yash Mundhra, Max Valk, Maliheh Izadi

#### Контекст Large language models (LLMs) показали впечатляющие результаты в области генерации кода для различных доменов. Однако их применение в промышленных средах, где существуют доменно-специфические ограничения и сложные интеграционные зависимости, до сих пор значительно не исследовано. Мы провели исследование в сотрудничестве с уровнем ASML, чтобы изучить результативность LLMs в создании функционального и поддерживаемого кода в закрытой, высокоспециализированной программной среде. Целью нашего исследования было оценить эффективность LLMs в промышленных условиях и сравнить различные техники подсказок, размеры моделей и типы моделей. #### Метод Мы разработали фреймворк для оценки LLMs, ориентированный на кодовую базу ASML, и внедрили новый бенчмарк. Ключевым элементом этого фреймворка является новый метрика, build@k, которая определяет успешность сборки LLM-генерируемого кода в реальных промышленных репозиториях. Мы проводили эксперименты с различными техниками подсказок, включая match-based и execution-based оценки. Мы также сравнивали общие модели языковых моделей с кодовыми-специализированными моделями, а также исследовали эффект размера модели на качество генерируемого кода. #### Результаты Наши эксперименты показали, что техники подсказок, такие как few-shot и chain-of-thought, существенно повышают успешность сборки LLM-кода. Отличия в производительности между кодовыми-специализированными и общими LLMs были менее выражены и отличались в зависимости от фамилий моделей. Мы также обнаружили, что размер модели оказывает значительное влияние на качество генерируемого кода, а влияние различных техник подсказок на различных моделях проявляется разным образом. #### Значимость Наши результаты имеют практическую значимость для промышленных пользователей LLMs, которые стремятся обеспечить функциональность и поддерживаемость кода. Мы демонстрируем, что LLMs могут быть эффективно применены в промышленных средах с достаточным фреймворком оценки и техниками подсказок. Наши работы также открывают возможности для будущих исследований в области улучшения техник подсказок и оптимизации размера модели для промышленного применения. #### Выводы Мы показали, что LLMs могут функционировать эффективно в промышленных средах при применении оптимальных техник подсказок и фреймворков оценки. Будущие исследования будут сфокусированы на улучшении техник подсказок, оптимизации размера модели и расширении применения LLMs в дополнительных промышленных средах.

Annotation:

Large language models have shown impressive performance in various domains, including code generation across diverse open-source domains. However, their applicability in proprietary industrial settings, where domain-specific constraints and code interdependencies are prevalent, remains largely unexplored. We present a case study conducted in collaboration with the leveling department at ASML to investigate the performance of LLMs in generating functional, maintainable code within a closed, highl...

ID: 2509.12395v1 cs.SE, cs.AI

arXiv PDF

📄 Understanding Prompt Management in GitHub Repositories: A Call for Best Practices

2025-09-18

Авторы:

Hao Li, Hicham Masri, Filipe R. Cogo, Abdul Ali Bangash, Bram Adams, Ahmed E. Hassan

## Контекст Продвинутая разработка систем на основе технологий ИИ, таких как foundation models (например, большие языковые модели), привела к возникновению "promptware" — программного обеспечения, основанного на естественном языке. Одним из ключевых аспектов работы с таким программным обеспечением является эффективное управление приглашениями (prompts). Однако при этом возникают значительные проблемы: проблемы в форматировании, дублирование приглашений и возникновение читаемости. Эти проблемы вызывают трудности в обслуживании и оптимизации приложений. В данном исследовании проводится анализ 24 800 открытых приглашений из 92 репозиториев GitHub, чтобы определить практики управления приглашениями и определить критические характеристики качества. Наши результаты показывают важность решения этих проблем для повышения эффективности разработки и использования программного обеспечения в условиях быстро меняющейся среды promptware. ## Метод Для исследования использовалось автоматическое сборище и анализ данных открытых приглашений с GitHub. Мы разработали специальные алгоритмы для автоматического распознавания и классификации приглашений, а также для идентификации проблем с их форматированием, читаемостью и дублированием. Методология включает в себя автоматическую сборку данных, анализ текста, оценку качества и форматирования приглашений, а также поиск идентичных или похожих приглашений внутри и между репозиториями. Данные ускоренного сборки и анализа позволяют выявить ключевые проблемы, связанные с управлением приглашениями в системах на основе ИИ. ## Результаты В ходе исследования были выявлены критические проблемы с приглашениями, в том числе существенное дублирование, ухудшение читаемости, несогласованность форматирования и проблемы с орфографией. Например, более 40% приглашений имели одинаковую структуру, что приводит к неэффективности и необходимости повторной работы. Также было выявлено, что около 20% приглашений имели проблемы с читаемостью, что может ограничить их эффективность в работе. Эти результаты подтверждают важность разработки лучших практик управления приглашениями в системах promptware, чтобы оптимизировать процессы разработки и сократить частоту ошибок. ## Значимость Найденные результаты имеют важное значение для развития программного обеспечения в области AI, где приглашения (prompts) являются ключевым инструментом для взаимодействия с моделями ИИ. Эффективное управление приглашениями может повысить качество и удобство использования программного обеспечения, уменьшить время разработки и помочь воспроизводимости результатов. Полученные рекоменда

Annotation:

The rapid adoption of foundation models (e.g., large language models) has given rise to promptware, i.e., software built using natural language prompts. Effective management of prompts, such as organization and quality assurance, is essential yet challenging. In this study, we perform an empirical analysis of 24,800 open-source prompts from 92 GitHub repositories to investigate prompt management practices and quality attributes. Our findings reveal critical challenges such as considerable incons...

ID: 2509.12421v1 cs.SE, cs.AI

arXiv PDF

📄 LLM-Based Approach for Enhancing Maintainability of Automotive Architectures

2025-09-18

Авторы:

Nenad Petrovic, Lukasz Mazur, Alois Knoll

## Контекст Одним из основных вопросов в сфере автоматизированных технологий является повышение гибкости и упрощение процессов обслуживания, обновления и расширения автомобильных систем. Несмотря на прогресс в технологиях, существуют несколько факторов, снижающих эффективность этих процессов. Это включает значительное время, затрачиваемое на реинжиниринг, стандартизацию и соответствие нормам при обновлении и расширении систем. Кроме того, системы автомобилей часто характеризуются высоким уровнем гетерогенности устройств и программных компонентов. Исследователи изучают возможности внедрения больших языковых моделей (LLMs) для автоматизации задач, способствующих повышению гибкости и эффективности механизмов обслуживания и развития автомобильных систем. ## Метод Рассматривается новая методология, основывающаяся на больших языковых моделях (LLMs) для решения проблем, связанных с обеспечением гибкости автомобильных систем. Метод включает в себя три основных направления: первое — автоматизация процессов обновления, абстракции оборудования и соответствия нормам; второе — анализ интерфейсной совместимости; третье — предложение рекомендаций по модификации архитектуры. Для проверки подхода был выбран модельный случай GPT-4o от OpenAI. Исследователи применяют этот подход в рамках трех конкретных сценариев, касающихся развития и обслуживания автомобильных систем. ## Результаты В рамках трех экспериментов были проверены гипотезы, связанные с возможностью LLMs в улучшении гибкости систем. В первом сценарии исследователи использовали LLM для оптимизации процессов обновления, исключения несоответствий и соответствия нормам. Во втором сценарии применялся LLM для проверки интерфейсной совместимости. И, наконец, в третьем сценарии исследователи использовали технологию для сгенерированных предложений по модификации архитектуры. Важным моментом является то, что все эксперименты были проведены с использованием GPT-4o, что позволило получить стабильные и надежные результаты. ## Значимость Предложенный подход имеет широкую потенциальную значимость в различных сферах, включая автоматизацию процессов обслуживания, упрощение стандартизации и соответствия, а также повышение эффективности работы с технологическими системами. Логические выводы, сделанные на основе результатов этих трех сценариев, могут быть применены в различных областях, связанных с развитием и обслуживанием автомобильных систем. Это может привести к экономии времени и снижению затрат на реинжиниринг и обслуживание. ## Выводы В итог

Annotation:

There are many bottlenecks that decrease the flexibility of automotive systems, making their long-term maintenance, as well as updates and extensions in later lifecycle phases increasingly difficult, mainly due to long re-engineering, standardization, and compliance procedures, as well as heterogeneity and numerosity of devices and underlying software components involved. In this paper, we explore the potential of Large Language Models (LLMs) when it comes to the automation of tasks and processe...

ID: 2509.12798v1 cs.SE, cs.AI

arXiv PDF

📄 Validating Solidity Code Defects using Symbolic and Concrete Execution powered by Large Language Models

2025-09-18

Авторы:

Ştefan-Claudiu Susan, Andrei Arusoaie, Dorel Lucanu

## Контекст Современные цифровые среды требуют надежных методов верификации программного кода, особенно в сфере блокчейнов и смарт-контрактов. Одним из наиболее актуальных языков для написания смарт-контрактов является Solidity. Однако статические анализаторы и искусственные нейронные сети (LLMs), которые используются для обнаружения ошибок в коде, часто генерируют ложные срабатывания (false alarms), что снижает надежность и эффективность данных инструментов. Это вызывает необходимость разработки более точных методов, которые могут формально или эмпирически доказать наличие ошибок в смарт-контрактах. ## Метод Главная идея метода заключается в сочетании двух подходов: символьного и конкретного выполнения. Символьное выполнение используется для формального моделирования поведения программы, в то время как конкретное выполнение позволяет проверить реальное поведение на реальных данных. Для реализации этого подхода использовались следующие инструменты: Slither (для статического анализа), Kontrol (для подтверждения фактического поведения программы) и Forge (для тестирования и выполнения смарт-контрактов). Эти инструменты были объединены в единую архитектуру, которая позволяет эффективно обнаруживать и проверять ошибки в Solidity-коде. ## Результаты Проведенные эксперименты показали, что подход эффективен в обнаружении семи критичных типов ошибок в Solidity-коде: Reentrancy, Complex Fallback, Faulty Access Control Policies, и других. Набор данных, использованный в экспериментах, включал реальные смарт-контракты с известными ошибками. Результаты показали, что система способна точно классифицировать эти ошибки, также уменьшив число ложных срабатываний. Это демонстрирует значительный потенциал метода в снижении бремени ручной верификации. ## Значимость Предлагаемый подход может быть применен в различных областях, где требуется высокая надежность и автоматизация проверки программного кода. Особенно он полезен в сфере блокчейнов, где смарт-контракты являются критичными для безопасности и эффективности. Преимущества метода включают уменьшение числа ложных срабатываний, повышение точности обнаружения ошибок, а также снижение времени и стоимости ручного аудита. Это может привести к повышению эффективности и надежности систем, основанных на Solidity. ## Выводы Предложенный подход является перспективным для решения проблемы ложных срабатываний в статическом анализе и LLMs. Он доказал способность эффективно обнаруживать критичные ошибки в Solidity-коде и уменьшить нагрузку на ручную верификацию. Будущие исследования будут сфокусированы на улучшении точности и снижении стоимости использования LLMs, а также на расширении под

Annotation:

The high rate of false alarms from static analysis tools and Large Language Models (LLMs) complicates vulnerability detection in Solidity Smart Contracts, demanding methods that can formally or empirically prove the presence of defects. This paper introduces a novel detection pipeline that integrates custom Slither-based detectors, LLMs, Kontrol, and Forge. Our approach is designed to reliably detect defects and generate proofs. We currently perform experiments with promising results for seven t...

ID: 2509.13023v1 cs.SE, cs.AI, I.2.2;D.2.5;D.2.4;D.4.6

arXiv PDF

1
2
22
23
24
25
26
34
35

Показано 231 - 240 из 341 записей