📚 Саммари научных статей из arXiv

Найдено 341 результатов по запросу 'cs.SE, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Verification Limits Code LLM Training

2025-09-27

Авторы:

Srishti Gureja, Elena Tommasone, Jingyi He, Sara Hooker, Matthias Gallé, Marzieh Fadaee

#### Контекст Modern large language models (LLMs) for code generation increasingly depend on synthetic data, where both problems and their solutions are generated by these models. While this approach enables scalable data creation, it introduces a novel limitation: the **verification ceiling**. This ceiling arises when the quality and diversity of training data are constrained by the capabilities of synthetic verifiers. Such a bottleneck restricts the ability of models to generalize and improve beyond a certain point. This study systematically investigates how verification design and strategies impact model performance, aiming to understand and overcome this limitation. #### Метод The methodology focuses on analyzing the interplay between verification strategies and model training. Researchers evaluate two key aspects: 1. **What we verify**: Tests are categorized by their complexity and quantity. Richer test suites enhance model capabilities, while excessive quantity yields diminishing returns. 2. **How we verify**: Relaxed pass thresholds and LLM-based soft verification methods are explored. These approaches recover valuable training data, leading to performance improvements. 3. **Why verification remains necessary**: Controlled comparisons between formally correct and incorrect solutions, alongside human evaluations, emphasize the importance of diverse and high-quality solutions. The study provides a nuanced understanding of the limitations and potential recalibration of verification processes. #### Результаты Experiments reveal that richer test suites improve code generation capabilities significantly, with an average increase of +3 pass@1. However, simply increasing quantity leads to diminishing returns. Relaxed pass thresholds and LLM-based soft verification demonstrate the potential to recover valuable training data, achieving a 2-4 point improvement in pass@1 performance. However, this benefit depends on the strength and diversity of the test cases. The findings underscore the necessity of recalibrating verification processes rather than discarding them. #### Значимость The recalibrated verification process offers significant potential across various domains, including software development, education, and AI-driven code generation. By overcoming the verification ceiling, this approach can unlock stronger and more generalizable LLMs for code. The findings highlight the importance of balancing test diversity and complexity to improve model performance. #### Выводы This work highlights the critical role of verification in LLMs for code generation and identifies key areas for improvement. By combining calibrated verification with diverse and challenging problem-solution pairs, the study outlines a path to break the verification ceiling, paving the way for the next generation of stronger and more versatile code generation models. Future research will focus on further refining verification strategies and exploring their application in real-world scenarios.

Annotation:

Large language models for code generation increasingly rely on synthetic data, where both problem solutions and verification tests are generated by models. While this enables scalable data creation, it introduces a previously unexplored bottleneck: the verification ceiling, in which the quality and diversity of training data are fundamentally constrained by the capabilities of synthetic verifiers. In this work, we systematically study how verification design and strategies influence model perfor...

ID: 2509.20837v1 cs.SE, cs.AI, cs.CL

arXiv PDF

📄 Fine-Tuning LLMs to Analyze Multiple Dimensions of Code Review: A Maximum Entropy Regulated Long Chain-of-Thought Approach

2025-09-27

Авторы:

Yongda Yu, Guohao Shi, Xianwei Wu, Haochuan He, XueMing Gu, Qianqian Zhao, Kui Liu, Qiushi Wang, Zhao Tian, Haifeng Shen, Guoping Rong

#### Область применения В статье предлагается MelcotCR, метод для оптимизации ларж-лангуэдж моделей (LLMs) для анализа нескольких аспектов кода в процессе кода ревью. Метод использует методы цепи мыслей (chain-of-thought, COT), с помощью которых модели способны предоставлять выверенные и структурированные ответы. Этот подход вносит большой вклад в автоматизацию кода ревью, что делает его ценным для разработчиков программного обеспечения и команд технического контроля. Метод может использоваться для улучшения качества кода, ускорения процесса проверки и уменьшения человеческого участия в рутинных задачах. #### Значимость MelcotCR показывает серьезный потенциал в автоматизации кода ревью. Он может повысить точность обнаружения ошибок и описание проблем, а также уменьшить время, затрачиваемое на ревью. Достигнутые результаты демонстрируют, что низкопараметрическая модель может выдавать результаты, которые почти вписываются в рамки результатов высокопараметрических моделей. Это решение может быть применено в сфере развития программного обеспечения, в частности, в процессах CI/CD, а также в широких областях, где необходимо автоматизировать процессы управления качеством. #### Результаты В ходе исследования проводились эксперименты на двух датасетах: MelcotCR и CodeReviewer. Метод MelcotCR показал выдающиеся результаты в задаче обнаружения и описания ошибок в коде. Низкопараметрическая модель, оптимизированная методом MelcotCR, показала результаты, сопоставимые с результатами модели DeepSeek-R1, известной за высокую точность. Эта конкурентность достигнута благодаря новой регуляции логики мыслей, которая уменьшает риск потери контекста и улучшает четкость логики. #### Метод MelcotCR основывается на цепи мыслей (COT), но добавляет новую регуляцию с помощью принципа максимальной энтропии (ME). Это позволяет модели повысить логическую связность и уменьшить потери контекста при обработке длинных COT-проволок. Метод предоставляет структуру для длинных запросов, чтобы улучшить интерпретацию и вывод модели. Архитектура предлагает новое решение для обеспечения высокого качества кода ревью с меньшим количеством параметров, чем в предыдущих методах. #### Контекст Ларж-лангуэдж модели (LLMs) становятся все более популярными в разработке программного обеспечения, особенно в области кода ревью. Однако они страдают от ограничений в контекстном понимании и логическом выводе, когда они работают с кодом. Это связано с ограниченным финетюнингом, который обычно ограничивается одним аспектом проблемы. Эта статья рассматривает проблему и предлагает новый подход, который обеспечивает LLMs более широ

Annotation:

Large Language Models (LLMs) have shown great potential in supporting automated code review due to their impressive capabilities in context understanding and reasoning. However, these capabilities are still limited compared to human-level cognition because they are heavily influenced by the training data. Recent research has demonstrated significantly improved performance through fine-tuning LLMs with code review data. However, compared to human reviewers who often simultaneously analyze multipl...

ID: 2509.21170v1 cs.SE, cs.AI, D.2.3; I.2.7

arXiv PDF

📄 Semantic-Aware Fuzzing: An Empirical Framework for LLM-Guided, Reasoning-Driven Input Mutation

2025-09-26

Авторы:

Mengdi Lu, Steven Ding, Furkan Alaca, Philippe Charland

## Контекст Многочисленные проблемы безопасности в системах, таких как Интернет вещей (IoT), мобильные платформы и автоматизированные системы, становятся все более критичными. Традиционные мутационные методы тестирования, такие как fuzzing, эффективно исследуют код, но часто ограничиваются мутациями в пределах байтов или битов, не учитывая семантическую логику и синтаксические зависимости. Автоматизированные инструменты, такие как AFL++, используют словари, грамматики и гибридные техники для применения структурных ограничений, но не полностью раскрывают глубинные семантические зависимости и отраслевые требования. С другой стороны, мощные технологии тестирования, основанные на технологиях ИИ и глубокого обучения, такие как модели Больших Языковых Моделей (LLMs), могут использоваться для семантического понимания структуры информации, предлагая более эффективные и точные мутации, что повышает качество тестирования. Однако отсутствие "правильного" метода мутации делает применение супервизированного обучения нецелесообразным, что приводит к заинтересованности в использовании нескольких способов мутации на основе заданий. В нашей работе мы сочетаем возможности LLMs с традиционным методом fuzzing, ориентируясь на ассинхронность и различные специфики тестирования. ## Метод Предлагаемая микросервисная архитектура объединяет методы тестирования fuzzing с моделями Больших Языковых Моделей (LLMs), используя структуру открытого фреймворка AFL++. Мы используем техники few-shot learning для обучения моделей LLM в режиме предварительной подготовки к работе. В качестве моделей используются Deepseek-r1-Distill-Llama-70B, Llama3.3, QwQ-32B и Gemma3. Мы разработали новый алгоритм, который включает модель LLM в цикл мутации, что позволяет ей анализировать интерфейсную логику, выявлять зависимости между полями и создавать высококачественные инструменты fuzzing. Таким образом, мы стремимся решить несколько задач: (R1) обеспечить интеграцию LLMs в модель fuzzing, (R2) исследовать качество мутаций, полученных с помощью few-shot способа, (R3) проверить влияние преобразований на выборку входных данных, а (R4) протестировать конкретные модели LLM для использования в таких средах. ## Результаты Мы проводили эксперименты с помощью 4 моделей LLM, используя протоколы запросов и анализ функционального поведения. Для оценки качества мутаций мы применяли метрики сложности и выявляли значимость мутаций в реальных сценариях. Мы демонстрируем, что Deepseek-r1-Distill-Llama-70B показал высокую эффективность в создании высококачественных мутаций, лучше отражающих слож

Annotation:

Security vulnerabilities in Internet-of-Things devices, mobile platforms, and autonomous systems remain critical. Traditional mutation-based fuzzers -- while effectively explore code paths -- primarily perform byte- or bit-level edits without semantic reasoning. Coverage-guided tools such as AFL++ use dictionaries, grammars, and splicing heuristics to impose shallow structural constraints, leaving deeper protocol logic, inter-field dependencies, and domain-specific semantics unaddressed. Convers...

ID: 2509.19533v1 cs.SE, cs.AI, cs.CR

arXiv PDF

📄 Reverse Engineering User Stories from Code using Large Language Models

2025-09-26

Авторы:

Mohamed Ouf, Haoyu Li, Michael Zhang, Mariam Guizani

## Контекст Reverse engineering user stories из исходного кода является важной задачей в современном программном обеспечении, особенно в случае старых или гетерогенных систем. Такие системы часто отсутствуют документации, что приводит к чрезмерному времени и стоимости восстановления пользовательских историй для поддержки и развития систем. Несмотря на важность пользовательских историй в адаптивном прогрессе, их восстановление из исходного кода остается трудоемкой и человекозависимой задачей. Мы исследуем возможность использования бо LARGE LANGUAGE MODELS (LLMs) для автоматизации этого процесса, а также анализируем, как проектирование подсказок (prompt design) влияет на качество полученных результатов. ## Метод Мы использовали 1,750 C++-сниппетов разной сложности, каждый из которых был помечен вручную. Для экспериментов использовались пять современных LLMs с различными размерами моделей (от 8B до 70B параметров). Мы провели исследования по сравнению различных стилей подсказок (prompting strategies), включая простой текст, воспроизведение задачи, иллюстративные примеры, и цепочку мыслей (Chain-of-Thought). Эксперименты были проведены с целью определить, какие модели и стили подсказок дают лучшие результаты в зависимости от сложности и размера кода. ## Результаты Наши результаты показывают, что все модели LLMs демонстрируют приемлемую точность (F1-метрика ~0.8) при обработке кода не более 200 NLOC (номера логических строк кода). Мы также обнаружили, что даже самая маленькая модель (8B параметров) может достичь той же точности, что и более крупная модель (70B параметров), если использовать иллюстративный пример в подсказке. Тем не менее, мы не обнаружили существенных выигрышей от использования более сложных стилей подсказок, таких как Chain-of-Thought, хотя они могут давать небольшие улучшения для более крупных моделей. ## Значимость Наше исследование показывает, что LLMs могут быть эффективными инструментами для автоматического восстановления пользовательских историй из исходного кода, особенно когда используются эффективные подсказки. Это может существенно сократить время и стоимость восстановления документации в ручном режиме. Наше исследование также открывает новые возможности для использования LLMs в автоматизации процессов системного анализа, тестирования и документационного обеспечения в программном обеспечении. ## Выводы Мы сделали вывод, что LLMs могут автоматически восстанавливать пользовательские истории из исходного кода с приемлемой точностью. Мы также показали, что использование иллюстративных примеров в подсказках может значительно повысить качество результатов, даже для небольших моделей. На

Annotation:

User stories are essential in agile development, yet often missing or outdated in legacy and poorly documented systems. We investigate whether large language models (LLMs) can automatically recover user stories directly from source code and how prompt design impacts output quality. Using 1,750 annotated C++ snippets of varying complexity, we evaluate five state-of-the-art LLMs across six prompting strategies. Results show that all models achieve, on average, an F1 score of 0.8 for code up to 200...

ID: 2509.19587v1 cs.SE, cs.AI

arXiv PDF

📄 AI-Specific Code Smells: From Specification to Detection

2025-09-26

Авторы:

Brahim Mahmoudi, Naouel Moha, Quentin Stievenert, Florent Avellaneda

## Контекст Развитие Искусственного Интеллекта (ИИ) вносит значительные изменения в процессы разработки и поддержки программного обеспечения. Однако новые возможности ИИ приносят также новые проблемы, которые существующие средства детектирования часто не могут обнаружить. Особое внимание уделяется AI-specific code smells — рекуррентным моделям в коде, которые могут свидетельствовать о глубинных проблемах, таких как невозможность воспроизведения результатов, чувствительность к незначительным изменениям, недостаточная общизна модели и др. Эти проблемы могут привести к серьезным проблемам в работе систем, но на них сейчас мало внимания уделяется. Для решения этой проблемы мы предлагаем SpecDetect4AI — инструмент, который позволяет удобно задавать и автоматически детектировать AI-specific code smells в больших AI-системах. ## Метод SpecDetect4AI основывается на комбинации языка Domain-Specific Language (DSL) для удобной записи правил и статического анализатора, который эти правила исполняет. DSL позволяет легко и гибко задавать конкретные AI-specific code smells, а статический анализатор анализирует код на их наличие. Мы определили 22 таких новых анализируемых моделей и протестировали SpecDetect4AI на огромном объеме данных — 826 AI-системах, составляющих вместе 20 миллионов строк кода. ## Результаты За счет своей подходящей архитектуры и детальной работы с правилами SpecDetect4AI показал высокую эффективность. Инструмент показал приемлимую точность (88.66%) и полноту выявления (88.89%), что значительно превосходит результаты других существующих инструментов. Это демонстрирует его полезность и достоверность в детектировании AI-specific code smells. Также были проведены исследования по удобству использования и четкости интерфейса, в результате чего SpecDetect4AI получил оценку SUS 81.7/100, что указывает на высокий уровень удобства и эффективности. ## Значимость Проблемы, выявляемые SpecDetect4AI, часто игнорируются в существующих системах, но они могут иметь значительное влияние на качество работы AI-систем. Инструмент предлагает новый подход к исправлению этой проблемы, позволяя разработчикам автоматизировать процесс детектирования и устранения этих проблем. SpecDetect4AI может быть применен в различных областях, где ИИ используется — от текстовых моделей до обработки изображений и технологий машинного обучения. Его высокая точность и эффективность делают его ценным инструментом для обеспечения качества AI-систем. ## Выводы SpecDetect4AI демонстрирует эффективность в спецификации и детектировании AI-specific code smells, оказавшись значительно эффективнее существующих решений. Мы призываем разработчиков включить SpecDetect4AI в свои процессы разра

Annotation:

The rise of Artificial Intelligence (AI) is reshaping how software systems are developed and maintained. However, AI-based systems give rise to new software issues that existing detection tools often miss. Among these, we focus on AI-specific code smells, recurring patterns in the code that may indicate deeper problems such as unreproducibility, silent failures, or poor model generalization. We introduce SpecDetect4AI, a tool-based approach for the specification and detection of these code smell...

ID: 2509.20491v1 cs.SE, cs.AI

arXiv PDF

📄 Intuition to Evidence: Measuring AI's True Impact on Developer Productivity

2025-09-26

Авторы:

Anand Kumar, Vishal Khare, Deepak Sharma, Satyam Kumar, Vijay Saini, Anshul Yadav, Sachendra Jain, Ankit Rana, Pratham Verma, Vaibhav Meena, Avinash Edubilli

## Контекст Область исследования — эффективность интеграции искусственного интеллекта (ИИ) в процессы разработки программного обеспечения (ПО) в реальных условиях. Существующие проблемы включают недостаточность широкомасштабных, реального мира экспериментов в оценке значимости ИИ-инструментов, а также неполное понимание их длительных эффектов на разработчиков. Мотивация заключается в том, чтобы предоставить статистически значимые доказательства того, насколько ИИ-инструменты могут улучшать производительность разработчиков в реальных корпоративных условиях. ## Метод Исследование основывается на многолетнем реальном использовании ИИ-инструмента "DeputyDev", который объединяет генерацию кода и автоматический рецензирований в одном платформе. Данные для экспериментов были собраны с помощью лонгитудинального описания работ 300 разработчиков в нескольких командах за год. Методы исследования включали в себя анализ потоков работы, опросы удовлетворенности, а также теоретический анализ производительности. Техническая архитектура системы DeputyDev основывалась на машинном обучении, специально адаптированном для контекста разработки ПО. ## Результаты Исследование показало, что интеграция "DeputyDev" привела к существенным улучшениям. Основной показатель — снижение времени цикла обзора pull-request (PR) на 31,8%. Участники проявили высокий уровень удовлетворенности: 85% заявили о довольности с функционалом кода, а 93% желали продолжать использовать систему. Объем кода, отправленного в продакшн, увеличился на 61% у тех, кто часто использовал ИИ-инструменты. Это привело к приблизительно 30-40% участию ИИ-инструментов в отправке кода в продакшн, что составляет 28% от общего объема кода. Динамика активности использования системы показала стабилизацию на 60% после шести месяцев. ## Значимость Результаты имеют практическое значение для корпоративных сред разработки ПО, поскольку демонстрируют значимый показатель эффективности ИИ-инструментов в реальных условиях. Изученный инструмент оказался применимым для упрощения задач кодирования, ускорения процессов обзора кода и повышения обозримости производительности разработчиков. Исследование также определило практические вызовы, такие как адаптация ИИ-платформы к различным стилям разработки и поддержание долгосрочного интереса пользователей. ## Выводы Исследование подтвердило значимость ИИ-инструментов в улучшении производительности разработчиков в корпоративных средах, обеспечив более быструю разработку и надежные результаты. Будущие исследования бу

Annotation:

We present a comprehensive real-world evaluation of AI-assisted software development tools deployed at enterprise scale. Over one year, 300 engineers across multiple teams integrated an in-house AI platform (DeputyDev) that combines code generation and automated review capabilities into their daily workflows. Through rigorous cohort analysis, our study demonstrates statistically significant productivity improvements, including an overall 31.8% reduction in PR review cycle time. Developer adopt...

ID: 2509.19708v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 The Cream Rises to the Top: Efficient Reranking Method for Verilog Code Generation

2025-09-26

Авторы:

Guang Yang, Wei Zheng, Xiang Chen, Yifan Sun, Fengji Zhang, Terry Yue Zhuo

## Контекст Программирование на Verilog — это важная компонента разработки электронных систем. Однако создание качественного кода на Verilog чрезвычайно затруднено из-за необходимости тщательного анализа технических задач и требований. Ошибки в коде могут привести к серьезным проблемам в проектах, что делает необходимым эффективное решение для генерации и оценки Verilog-кода. Несмотря на развитие генеративных моделей и семантического поиска, существуют значительные проблемы: существующие методы генерируют много кандидатов, из которых трудно выбрать наиболее подходящий. Наша мотивация заключается в том, чтобы создать более точный и эффективный механизм для поиска и оценки Verilog-кода. ## Метод Мы предлагаем метод **VCD-RNK**, который основывается на методах семантического анализа и искусственного интеллекта. Метод включает два основных этапа: **расчет семантического анализа** и **рейтинг кандидатов**. Работает он следующим образом: для полученного кода производится подробный семантический анализ, который позволяет определить соответствие требований. Затем используется дискриминаторный ренковщик для оценки качества кандидатов. Модель обучается с помощью больших объемов данных, чтобы стать более точной в процессе воспроизведения решений экспертов. Мы также используем техники, такие как функции внимания, для улучшения интерпретируемости решений. ## Результаты Мы проводили эксперименты на реальных данных, включающих различные типы задач программирования на Verilog. Модель VCD-RNK показала высокую точность в определении правильных решений и снижение количества ложных срабатываний. Например, в сравнении с другими подходами, такими как семантический поиск и генеративные модели, VCD-RNK показал значительное улучшение в pass@k-метрике, что указывает на его более высокую эффективность в процессе рейтинга Verilog-кода. ## Значимость Наш метод может быть применен в сферах, где требуется высококачественное программирование на Verilog, такие как разработка систем на чипах, радиоэлектронные устройства и автоматизация производства. Он предоставляет более точные и быстрые решения, уменьшая время и ресурсы, необходимые для тестирования и оптимизации кода. Это может повысить качество продуктов и уменьшить риск ошибок в разработке. ## Выводы Мы представили метод VCD-RNK, который значительно улучшил эффективность рейтинга Verilog-кода. Наша работа показывает, что семантический поиск и точный рейтинг могут быть объединены для создания более удобной и надежной системы. Мы планируем продолжить работу над улучшением техник семантического анализа и интеграцией дополнительных

Annotation:

LLMs face significant challenges in Verilog generation due to limited domain-specific knowledge. While sampling techniques improve pass@k metrics, hardware engineers need one trustworthy solution rather than uncertain candidates. To bridge this gap, we formulate it as a semantic alignment problem between requirements and Verilog implementations, and propose VCD-RNK, a discriminator model tailored for efficient Verilog code reranking. Specifically, VCD-RNKincorporates Verilog-specific reasoning b...

ID: 2509.20215v1 cs.SE, cs.AI, cs.AR

arXiv PDF

📄 Reading Between the Lines: Scalable User Feedback via Implicit Sentiment in Developer Prompts

2025-09-25

Авторы:

Daye Nam, Malgorzata Salawa, Satish Chandra

## Контекст Область исследования связана с оценкой удовлетворенности профессиональных разработчиков при использовании конверсационных ИИ-помощников. Несмотря на важность этой задачи, оценка удовлетворенности часто ограничивается простыми методами, такими как отзывы и рейтинги, которые либо недостаточно точны, либо невозможны в масштабе. Недостаточное количество качественных данных ставит под угрозу эффективное улучшение систем, так как невозможно обнаружить тонкие сигналы удовлетворенности. Поэтому, целью данного исследования является разработка метода, который мог бы дополнять существующие модели, обеспечивая более широкую и точную оценку отношения разработчиков к инструментам. ## Метод Методология основывается на использовании анализа тональности (sentiment analysis) для выделения неявных сигналов удовлетворенности из команд, которые разработчики отправляют в систему. Использованные алгоритмы тональности являются от коммерческих вариантов (off-the-shelf), что обеспечивает простоту использования. Для обучения модели не использовалось дополнительного тренировочного материала. Для экспериментов использовались логи использования 372 профессиональных разработчиков, что дало возможность проанализировать большой объем данных за короткое время. ## Результаты На основе анализа 372 разработчиков обнаружено, что неявные сигналы удовлетворенности могут быть выявлены в примерно 8% всех интеракций. Это увеличивает скорость обнаружения сигналов по сравнению с явными отзывами более чем в 13 раз. Модель показала приемлемую точность даже на основе откровенного сентимент-анализа, что демонстрирует возможность расширения эффективности существующих моделей без глубокой настройки. ## Значимость Результаты имеют практическое значение для области развития ИИ-помощников. Данный подход может быть использован для совершенствования системы понимания динамического поведения разработчиков, улучшения работы системы прогнозирования потребностей и выявления проблем, которые могут быть незаметными в классических методах оценки. Более широкое применение этого метода может повысить удовлетворенность разработчиков и ускорить развитие новых функций. ## Выводы Исследование доказало, что использование неявных сигналов удовлетворенности в разработческих запросах позволяет расширить объем исследований и улучшить точность оценки удовлетворенности. Будущие исследования будут сфокусированы на дополнительной настройке метода для повышения точности, а также на расширении исследований для различных типов AI-помощников.

Annotation:

Evaluating developer satisfaction with conversational AI assistants at scale is critical but challenging. User studies provide rich insights, but are unscalable, while large-scale quantitative signals from logs or in-product ratings are often too shallow or sparse to be reliable. To address this gap, we propose and evaluate a new approach: using sentiment analysis of developer prompts to identify implicit signals of user satisfaction. With an analysis of industrial usage logs of 372 professional...

ID: 2509.18361v1 cs.SE, cs.AI, cs.HC

arXiv PDF

📄 On the Soundness and Consistency of LLM Agents for Executing Test Cases Written in Natural Language

2025-09-25

Авторы:

Sébastien Salva, Redha Taguelmimt

## Контекст Область исследования включает в себя использование естественного языка (NL) для создания тестовых сценариев в процессе тестирования. Недостатком этого подхода является высокая стоимость разработки и трудности в поддержке скриптов. Новые возможности, предоставленные большими языковыми моделями (LLMs), позволяют использовать естественный язык непосредственно для выполнения тестов. Однако возникают проблемы, такие как неточность (unsoundness) тестовых сценариев и несогласованность их результатов при повторном выполнении. Необходимо разработать системы, обеспечивающие высокую надежность и точность выполнения тестов, чтобы сделать этот подход применимым в промышленных условиях. ## Метод Предложена методология, основанная на использовании гибридных моделей: LLMs и специализированных агентов. Агенты отвечают за этапы исполнения тестов, например, выполнение действий в приложении, проверка результатов и динамическое верифицирование шагов. Для уменьшения уровня unsoundness используются механизмы "защитных заборов" (guardrails), которые предотвращают некорректное поведение модели. Также предложены меры для оценки точности выполнения тестов и уровня консистентности. Архитектура системы включает в себя модельный компонент, выполняющий текст тестов, и агентскую систему, обеспечивающую контроль и повторную проверку. ## Результаты Были проведены эксперименты с восемью публично доступными LLMs, имеющими до 70 миллиардов параметров. Оценивались уровни unsoundness и consistency в выполнении тестов. Результаты показали, что Meta Llama 3.1 (70B параметров) показала лучший результат в том числе в высокой консистентности выполнения (выше уровня 3-sigma). Выявлены ситуации, в которых модели могут показать приемлемые результаты, но с рядом ограничений, таких как неоднозначные инструкции в NL-тестах. На основе этих результатов были разработаны прототипы инструментов и наборы тестов. ## Значимость Результаты имеют потенциал для применения в промышленном тестировании приложений с графическим интерфейсом. Основное преимущество — сокращение времени и стоимости разработки тестов благодаря использованию естественного языка. Также отмечается повышение уровня надежности и повторяемости тестов, что способствует улучшению качества программного обеспечения. Направления будущих исследований включают улучшение моделей, уменьшение неоднозначности естественного языка и повышение уровня контроля в тестировании. ## Выводы Полученные результаты подтвердили потенциал LLMs в выполнении NL-тестов, особенно при использовании моделей с

Annotation:

The use of natural language (NL) test cases for validating graphical user interface (GUI) applications is emerging as a promising direction to manually written executable test scripts, which are costly to develop and difficult to maintain. Recent advances in large language models (LLMs) have opened the possibility of the direct execution of NL test cases by LLM agents. This paper investigates this direction, focusing on the impact on NL test case unsoundness and on test case execution consistenc...

ID: 2509.19136v1 cs.SE, cs.AI, D.2.4; D.2.5; F.3.1

arXiv PDF

📄 Causal Fuzzing for Verifying Machine Unlearning

2025-09-24

Авторы:

Anna Mazhar, Sainyam Galhotra

## Контекст Область исследования связана с проблемой "machine unlearning", то есть с возможностью "удаления" целевых данных или признаков из обученных моделей машинного обучения. Это важно для обеспечения моделей адаптивности, справедливости и приватности. Однако представление такого удаления требует точного тестирования, так как эффекты могут быть не только прямыми, но и косвенными. Изучение этого вопроса необходимо для создания эффективных методов проверки моделей, которые могут помочь в обеспечении их добросовестного использования в решениях, затрагивающих чувствительные данные. ## Метод Методология CAF\'E (Causal Fuzzing for Evaluation) основывается на применении принципов каузального анализа для установления зависимостей между целевыми данными и моделью. CAF\'E использует специальный подход к fuzzy testing, который позволяет строить каузальные модели для как прямых, так и косвенных влияний. Она работает в сценариях с блэк-бокс моделями машинного обучения, что делает её применимой в широком круге реальных ситуаций. Архитектура CAF\'E включает в себя слои для выявления зависимостей, оценки их влияния и генерации тестовых сценариев для проверки этих зависимостей. ## Результаты Используя CAF\'E, проводились эксперименты на пяти различных датасетах, включая текстовые и изображения, и с тремя различными моделями машинного обучения. Результаты показали, что CAF\'E выявляет зависимости, которые были пропущены используемыми ранее методами. На примере изображений, CAF\'E удалось продемонстрировать точность в выявлении косвенного влияния изображений на модель, которое было пропущено другими методами. Также было продемонстрировано, что CAF\'E демонстрирует высокую эффективность с точки зрения вычислительных ресурсов. ## Значимость Приложение CAF\'E распространяется на широкий круг задач, связанных с проверкой моделей машинного обучения на удаление данных, включая приложения в сферах приватности, справедливости и адаптивности. Особенно важно его использование в сферах, где данные могут иметь чувствительный характер (например, в здравоохранении или финансах). Метод CAF\'E предоставляет более точные и детальные анализы, чем существующие, и может способствовать улучшению стандартов в области тестирования моделей. ## Выводы Выводы CAF\'E показали, что он успешно детектирует косвенные и прямые влияния в машинном обучении, создавая новые подходы для проверки удаления данных. Будущие исследования будут стремиться расширить CAF\'E для поддержки более сложных сценариев и моделей, таких как глубокое обучение в сложных ситуациях.

Annotation:

As machine learning models become increasingly embedded in decision-making systems, the ability to "unlearn" targeted data or features is crucial for enhancing model adaptability, fairness, and privacy in models which involves expensive training. To effectively guide machine unlearning, a thorough testing is essential. Existing methods for verification of machine unlearning provide limited insights, often failing in scenarios where the influence is indirect. In this work, we propose CAF\'E, a ne...

ID: 2509.16525v1 cs.SE, cs.AI, cs.LG

arXiv PDF

1
2
20
21
22
23
24
34
35

Показано 211 - 220 из 341 записей