SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

2509.16941v1 cs.SE, cs.CL 2025-09-24

Авторы:

Xiang Deng, Jeff Da, Edwin Pan, Yannis Yiming He, Charles Ide, Kanak Garg, Niklas Lauffer, Andrew Park, Nitin Pasari, Chetan Rane, Karmini Sampath, Maya Krishnan, Srivatsa Kundurthy, Sean Hendryx, Zifan Wang, Chen Bo Calvin Zhang, Noah Jacobson, Bing Liu, Brad Kenstler

Резюме на русском

## Контекст Информационные технологии становятся все более важной частью современной экономики, а среди них автоматизация процессов разработки программного обеспечения (СЕ) приобретает все большее значение. Однако далеко не все задачи в СЕ могут быть автоматизированы с помощью нынешних моделей машинного обучения. Особенно сложной является задача поиска решений для долгосрочных задач в разработке программного обеспечения, требующих многочасовых работ профессионального разработчика. Эта сложность возникает из-за недостатка достаточного контекста, реалистичности и сложности задач, а также отсутствия тестов, которые могли бы сравнить модели в этих условиях. Это движет мотивацией к созданию SWE-Bench Pro — бенчмарка, предназначенного для того, чтобы выявить слабые места у нынешних агентов для решения долгосрочных задач в области СЕ. ## Метод SWE-Bench Pro является расширенной версией SWE-Bench, специально разработанной для решения долгосрочных задач в области СЕ. Он содержит 1865 задач, собранных из 41 репозиториев, включая бизнес-приложения, B2B-сервисы и инструменты разработчиков. Бенчмарк поделен на три части: публичный набор (11 репозиториев), закрытый набор для тестирования (12 репозиториев) и коммерческий набор, содержащий задачи из 18 репозиториев, с которыми у авторов есть партнерские соглашения. Задачи включают набор действий, которые могут требовать часов или дней работы профессионального разработчика, включая поиск и исправление ошибок в нескольких файлах. Для каждой задачи был проведен тщательный human-verified процесс, чтобы гарантировать решаемость и контекстность. Это позволяет SWE-Bench Pro представлять реальную сложность реального программирования на профессиональном уровне. ## Результаты В ходе экспериментов были рассмотрены широко известные модели кодирования в рамках SWE-Bench Pro. Полученные результаты показали, что выполнение задач на этом бенчмарке остается низким — ни одна из тестируемых моделей не превышала 25% Pass@1. Модель GPT-5 показала наилучший результат с уровнем 23.3%. Были проанализированы кластеры ошибок, полученных в результате работы моделей, что позволило выделить основные недостатки, такие как неверное понимание контекста, неточности в оценке задач и несостоятельность решений в долгосрочных сценариях. Таким образом, SWE-Bench Pro выступает как честный тест для моделей, позволяя выявить ограничения нынешних моделей в решении долгосрочных задач в СЕ. ## Значимость SWE-Bench Pro представляет собой новый шаг в развитии бенчмарков для решения долгосрочных задач в СЕ. Он позволяет оценить не только точность решений, но и способность моделей понимать контекст, отслеживать задачи в процессе

Abstract

We introduce SWE-Bench Pro, a substantially more challenging benchmark that builds upon the best practices of SWE-BENCH [25], but is explicitly designed to capture realistic, complex, enterprise-level problems beyond the scope of SWE-BENCH. SWE-BENCH PRO contains 1,865 problems sourced from a diverse set of 41 actively maintained repositories spanning business applications, B2B services, and developer tools. The benchmark is partitioned into a public set with open access to problems sourced from 11 repositories, a held-out set of 12 repositories and a commercial set of 18 proprietary repositories where we have formal partnership agreements with early-stage startups. Problems in the held-out and the commercial set are not publicly accessible, but we release results on the commercial set. Our benchmark features long-horizon tasks that may require hours to days for a professional software engineer to complete, often involving patches across multiple files and substantial code modifications. All tasks are human-verified and augmented with sufficient context to ensure resolvability. In our evaluation of widely used coding models, under a unified scaffold, we observe that their performance on SWE-Bench PRO remains below 25% (Pass@1), with GPT-5 achieving the highest score to date at 23.3%. To better understand these limitations, we cluster the failure modes observed in the collected agent trajectories for a clearer characterization of the error patterns exhibited by current models. Overall, SWE-BENCH PRO provides a contamination-resistant testbed that more faithfully captures the complexity and diversity of real-world software development, advancing the pursuit of truly autonomous software engineering agents at a professional level.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-...

Bias Testing and Mitigation in Black Box LLMs using Metamorphic Relations

From Code Foundation Models to Agents and Applications: A Practical Guide to Cod...

M, Toolchain and Language for Reusable Model Compilation

Show and Tell: Prompt Strategies for Style Control in Multi-Turn LLM Code Genera...

Навигация