📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Multi-Agent Code Verification with Compound Vulnerability Detection

2025-11-24

Авторы:

Shreshth Rajan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

LLMs generate buggy code: 29.6% of SWE-bench "solved" patches fail, 62% of BaxBench solutions have vulnerabilities, and existing tools only catch 65% of bugs with 35% false positives. We built CodeX-Verify, a multi-agent system that uses four specialized agents to detect different types of bugs. We prove mathematically that combining agents with different detection patterns finds more bugs than any single agent when the agents look for different problems, confirmed by measuring agent correlation...

ID: 2511.16708v1 cs.SE, cs.AI, cs.MA

arXiv PDF

📄 TDFlow: Agentic Workflows for Test Driven Software Engineering

2025-10-30

Авторы:

Kevin Han, Siddharth Maddikayala, Tim Knappe, Om Patel, Austen Liao, Amir Barati Farimani

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce TDFlow, a novel test-driven agentic workflow that frames repository-scale software engineering as a test-resolution task, specifically designed to solve human-written tests. Given a set of tests, TDFlow repeatedly proposes, revises, and debugs repository-scale patches using precisely engineered sub-agents and tightly constrained tools. The workflow decomposes software engineering program repair into four components governed by respective sub-agents. This simple, forced decoupling of...

ID: 2510.23761v1 cs.SE, cs.AI, cs.MA

arXiv PDF

📄 Toward Agentic Software Engineering Beyond Code: Framing Vision, Values, and Vocabulary

2025-10-24

Авторы:

Rashina Hoda

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Agentic AI is poised to usher in a seismic paradigm shift in Software Engineering (SE). As technologists rush head-along to make agentic AI a reality, SE researchers are driven to establish agentic SE as a research area. While early visions of agentic SE are primarily focused on code-related activities, early empirical evidence calls for a consideration of a range of socio-technical concerns to make it work in practice. This paper contributes to the emerging community vision by: (a) recommending...

ID: 2510.19692v1 cs.SE, cs.AI, cs.MA

arXiv PDF

📄 Who is Introducing the Failure? Automatically Attributing Failures of Multi-Agent Systems via Spectrum Analysis

2025-09-19

Авторы:

Yu Ge, Linna Xie, Zhong Li, Yu Pei, Tian Zhang

#### Контекст Large Language Model Powered Multi-Agent Systems (MASs) широко используются для решения сложных реальных задач, таких как программирование и научные открытия. Несмотря на их перспективные возможности, они не являются идеальными и часто сталкиваются с ошибками. Одной из основных проблем при использовании MASs является необходимость быстро и точно определить, какая агентская деятельность привела к неполадке. Этот процесс, известный как атрибуция неполадок, требует значительных усилий и является затратным в терминах времени и ресурсов. Большинство существующих подходов к атрибуции неполадок требуют ручного анализа или нетранспарентных методов, что порождает затруднения в диагностике и моделировании MASs. #### Метод Мы предлагаем FAMAS (Failure Attribution in Multi-Agent Systems) — первый spectrum-based подход к атрибуции неполадок в MASs. Работа FAMAS основывается на двух основных компонентах: траектории реплея и абстракции, а также spectrum analysis. Метод FAMAS использует периодические выполнения MASs для вычисления вероятности того, что каждая конкретная действие агента стало причиной неполадки. Основной инновацией является специально разработанная формула, которая агрегирует два ключевых фактора: агентские поведенческие характеристики и поведенческие характеристики действий. Эта формула позволяет учитывать активации агентов и действий в траекториях MASs, чтобы определить самое вероятное источником неполадки действие. #### Результаты Мы провели эксперименты с FAMAS на 12 существующих baseline-методах, используя бенчмарк Who and When. Результаты показали, что FAMAS превосходит все существующие подходы в точности и транспарентности при атрибуции неполадок. Мы также показали, что FAMAS может эффективно идентифицировать ответственных агентов в сложных сценариях, включающих множественные агентов и действия. FAMAS подтвердил свою эффективность в реальных условиях, где он выделяет ответственных агентов за неполадки в меньшем количестве выполнений MASs по сравнению с другими методами. #### Значимость Предлагаемый подход FAMAS имеет широкие применения в области автоматизации диагностики и мониторинга MASs. Он позволяет сократить время и усилия, необходимые для атрибуции неполадок, и улучшает прозрачность и надежность MASs. Благодаря ему можно быстрее выявлять и устранять ошибки, что повышает эффективность систем. Мы также выявили, что FAMAS может быть применен в различных областях, таких как программирование, научные открытия и другие сложные задачи, где MASs используются для управления процессами. #### Выводы Результаты наших экспериментов показали, что FAMAS является эффективным инструментом для атри

Annotation:

Large Language Model Powered Multi-Agent Systems (MASs) are increasingly employed to automate complex real-world problems, such as programming and scientific discovery. Despite their promising, MASs are not without their flaws. However, failure attribution in MASs - pinpointing the specific agent actions responsible for failures - remains underexplored and labor-intensive, posing significant challenges for debugging and system improvement. To bridge this gap, we propose FAMAS, the first spectrum...

ID: 2509.13782v1 cs.SE, cs.AI, cs.MA, D.2.2; I.2.1

arXiv PDF