SWE-Effi: Re-Evaluating Software AI Agent System Effectiveness Under Resource Constraints

2509.09853v1 cs.SE, cs.AI 2025-09-16
Авторы:

Zhiyu Fan, Kirill Vasilevski, Dayi Lin, Boyuan Chen, Yihao Chen, Zhiqing Zhong, Jie M. Zhang, Pinjia He, Ahmed E. Hassan

Резюме на русском

## Контекст Ускорение развития больших языковых моделей (LLM) и кодовых агентов (code agents) показало значительный потенциал в помощи при решении задач в области программного обеспечения (SWE), таких как устранение проблем и добавление функций. Несмотря на эти улучшения, существующие лидербеды в области AI for Software Engineering (например, SWE-bench) ориентированы только на точность решения, не учитывая важность эффективности в условиях ограниченных ресурсов. Это проблема широко распространенная не только в сфере программного обеспечения, но и в других областях, где актуально учитывать не только точность решения, но и стоимость его достижения. Наша цель — разработать новый подход для оценки эффективности AI-систем, учитывая как точность решения, так и стоимость ресурсов, требуемых для этого. ## Метод Мы предлагаем SWE-Effi — новую многомерную метрику для оценки эффективности AI-систем в области программного обеспечения. Метрика SWE-Effi принимает во внимание не только точность решения, но и эффективность в использовании ресурсов, таких как токены и время. Мы определяем эффективность как баланс между точностью решения задач (например, процент успешно решенных проблем) и затратами ресурсов. Для применения этого подхода, мы воспользовались подмножеством SWE-bench для реинтерпретации результатов популярных AI-систем по принципу точности и эффективности. Эксперименты проводились с использованием предварительно обученных моделей и реалистичных наборов данных. ## Результаты Наши эксперименты показали, что эффективность AI-систем зависит не только от самой модели, но также от ее интеграции с базовыми моделями. Мы обнаружили, что некоторые системы демонстрируют высокую точность решений, но используют так много ресурсов, что становятся не эффективными в условиях ограниченных ресурсов. Также мы обнаружили "системные вызовы", такие как "token snowball effect" (токенная снежная сфера), когда AI-системы растут в размере и стоимости работы, не достигая цели. Также выявлено "проблему дорогостоящих ошибок", когда системы уходят в "бесконечный цикл" при попытке решить неразрешимую задачу, что приводит к потере ресурсов в ходе обучения с подкреплением (RL). Наконец, мы отметили значительный трейд-офф между эффективностью под лимитом токенов и под лимитом времени, что важно для управления проектными бюджетами и распределения ресурсов в сценариях реального времени. ## Значимость Метод SWE-Effi может быть применен в различных областях, где требуется эффективность AI-систем, включая не только программное обеспечение, но и медицину, финансы и другие. Наши результаты показывают, что эффективный выбор и и

Abstract

The advancement of large language models (LLMs) and code agents has demonstrated significant potential to assist software engineering (SWE) tasks, such as autonomous issue resolution and feature addition. Existing AI for software engineering leaderboards (e.g., SWE-bench) focus solely on solution accuracy, ignoring the crucial factor of effectiveness in a resource-constrained world. This is a universal problem that also exists beyond software engineering tasks: any AI system should be more than correct - it must also be cost-effective. To address this gap, we introduce SWE-Effi, a set of new metrics to re-evaluate AI systems in terms of holistic effectiveness scores. We define effectiveness as the balance between the accuracy of outcome (e.g., issue resolve rate) and the resources consumed (e.g., token and time). In this paper, we specifically focus on the software engineering scenario by re-ranking popular AI systems for issue resolution on a subset of the SWE-bench benchmark using our new multi-dimensional metrics. We found that AI system's effectiveness depends not just on the scaffold itself, but on how well it integrates with the base model, which is key to achieving strong performance in a resource-efficient manner. We also identified systematic challenges such as the "token snowball" effect and, more significantly, a pattern of "expensive failures". In these cases, agents consume excessive resources while stuck on unsolvable tasks - an issue that not only limits practical deployment but also drives up the cost of failed rollouts during RL training. Lastly, we observed a clear trade-off between effectiveness under the token budget and effectiveness under the time budget, which plays a crucial role in managing project budgets and enabling scalable reinforcement learning, where fast responses are essential.

Ссылки и действия