SWE-Effi: Re-Evaluating Software AI Agent System Effectiveness Under Resource Constraints
2509.09853v1
cs.SE, cs.AI
2025-09-16
Авторы:
Zhiyu Fan, Kirill Vasilevski, Dayi Lin, Boyuan Chen, Yihao Chen, Zhiqing Zhong, Jie M. Zhang, Pinjia He, Ahmed E. Hassan
Резюме на русском
## Контекст
Ускорение развития больших языковых моделей (LLM) и кодовых агентов (code agents) показало значительный потенциал в помощи при решении задач в области программного обеспечения (SWE), таких как устранение проблем и добавление функций. Несмотря на эти улучшения, существующие лидербеды в области AI for Software Engineering (например, SWE-bench) ориентированы только на точность решения, не учитывая важность эффективности в условиях ограниченных ресурсов. Это проблема широко распространенная не только в сфере программного обеспечения, но и в других областях, где актуально учитывать не только точность решения, но и стоимость его достижения. Наша цель — разработать новый подход для оценки эффективности AI-систем, учитывая как точность решения, так и стоимость ресурсов, требуемых для этого.
## Метод
Мы предлагаем SWE-Effi — новую многомерную метрику для оценки эффективности AI-систем в области программного обеспечения. Метрика SWE-Effi принимает во внимание не только точность решения, но и эффективность в использовании ресурсов, таких как токены и время. Мы определяем эффективность как баланс между точностью решения задач (например, процент успешно решенных проблем) и затратами ресурсов. Для применения этого подхода, мы воспользовались подмножеством SWE-bench для реинтерпретации результатов популярных AI-систем по принципу точности и эффективности. Эксперименты проводились с использованием предварительно обученных моделей и реалистичных наборов данных.
## Результаты
Наши эксперименты показали, что эффективность AI-систем зависит не только от самой модели, но также от ее интеграции с базовыми моделями. Мы обнаружили, что некоторые системы демонстрируют высокую точность решений, но используют так много ресурсов, что становятся не эффективными в условиях ограниченных ресурсов. Также мы обнаружили "системные вызовы", такие как "token snowball effect" (токенная снежная сфера), когда AI-системы растут в размере и стоимости работы, не достигая цели. Также выявлено "проблему дорогостоящих ошибок", когда системы уходят в "бесконечный цикл" при попытке решить неразрешимую задачу, что приводит к потере ресурсов в ходе обучения с подкреплением (RL). Наконец, мы отметили значительный трейд-офф между эффективностью под лимитом токенов и под лимитом времени, что важно для управления проектными бюджетами и распределения ресурсов в сценариях реального времени.
## Значимость
Метод SWE-Effi может быть применен в различных областях, где требуется эффективность AI-систем, включая не только программное обеспечение, но и медицину, финансы и другие. Наши результаты показывают, что эффективный выбор и и
Abstract
The advancement of large language models (LLMs) and code agents has
demonstrated significant potential to assist software engineering (SWE) tasks,
such as autonomous issue resolution and feature addition. Existing AI for
software engineering leaderboards (e.g., SWE-bench) focus solely on solution
accuracy, ignoring the crucial factor of effectiveness in a
resource-constrained world. This is a universal problem that also exists beyond
software engineering tasks: any AI system should be more than correct - it must
also be cost-effective. To address this gap, we introduce SWE-Effi, a set of
new metrics to re-evaluate AI systems in terms of holistic effectiveness
scores. We define effectiveness as the balance between the accuracy of outcome
(e.g., issue resolve rate) and the resources consumed (e.g., token and time).
In this paper, we specifically focus on the software engineering scenario by
re-ranking popular AI systems for issue resolution on a subset of the SWE-bench
benchmark using our new multi-dimensional metrics. We found that AI system's
effectiveness depends not just on the scaffold itself, but on how well it
integrates with the base model, which is key to achieving strong performance in
a resource-efficient manner. We also identified systematic challenges such as
the "token snowball" effect and, more significantly, a pattern of "expensive
failures". In these cases, agents consume excessive resources while stuck on
unsolvable tasks - an issue that not only limits practical deployment but also
drives up the cost of failed rollouts during RL training. Lastly, we observed a
clear trade-off between effectiveness under the token budget and effectiveness
under the time budget, which plays a crucial role in managing project budgets
and enabling scalable reinforcement learning, where fast responses are
essential.
Ссылки и действия
Дополнительные ресурсы: