FeatBench: Evaluating Coding Agents on Feature Implementation for Vibe Coding
2509.22237v1
cs.CL, cs.AI, cs.SE
2025-09-30
Авторы:
Haorui Chen, Chengze Li, Jia Li
Резюме на русском
## Контекст
Современные Large Language Models (LLMs) вводят новый парадигму в программировании, называемую "vibe coding", где пользователи взаимодействуют с кодинг-агентами с помощью высокоуровневого естественного языка. Это парадигма делает программирование более доступным и простым для новичков. Однако существующие оценочные бенчмарки для кодогенерации не эффективно оценивают эти модели в контексте vibe coding. Они либо требуют кода-спецификаций, либо фокусируются исключительно на решении конкретных проблем, не учитывая ключевой сценарий — реализацию функций в рамках этого парадигма. Этот недостаток в оценке приводит к недостаточному пониманию того, насколько эффективно агенты могут работать в реальных сценариях.
## Метод
Для оценки моделей в контексте vibe coding мы предлагаем FeatBench — новый бенчмарк, ориентированный на реализацию функций. FeatBench включает несколько ключевых особенностей:
1. **Применение Натурального Языка**: Задачи описаны только естественным языком, без использования кода или структурных подсказок.
2. **Комплексная Дорожная Карта**: Мы применяем жесткую многоуровневую фильтрацию для обеспечения качества данных и автоматизируемую систему для её постоянного обновления.
3. **Обобщенные Тест-Кейсы**: Каждая задача включает Fail-to-Pass (F2P) и Pass-to-Pass (P2P) тестовые случаи, чтобы проверить точность решения и предотвратить регрессию.
4. **Разнообразные Домены**: Бенчмарк охватывает задачи из различных областей для лучшего отражения реальных условий.
## Результаты
Мы провели эксперименты с двумя современными фреймворками для кода-агентов, используя четыре лидирующих модели естественного языка. Наши результаты показали, что реализация функций в рамках vibe coding — это серьезный вызов, с максимальной успешностью лишь 29.94%. Мы также обнаружили тенденцию к "агрессивной реализации" — стратегии, которая приводит к как к критическим ошибкам, так и к более удобному программированию.
## Значимость
FeatBench может быть применен в разработке и оценке моделей программирования, которые должны работать в стиле vibe coding. Его преимущества заключаются в том, что он предлагает более точную оценку моделей в реальных условиях, чем существующие бенчмарки. Будущие исследования могут использовать этот бенчмарк для усовершенствования моделей и поиска решений для сложных задач реализации функций.
## Выводы
Результаты нашего исследования подтверждают значимость FeatBench в оценке моделей в контексте vibe coding. Мы открываем доступ к FeatBench, автоматизированной системе сбора данных и результатам наших экспериментов, чтобы поощрить дальнейшу
Abstract
The rapid advancement of Large Language Models (LLMs) has given rise to a
novel software development paradigm known as "vibe coding," where users
interact with coding agents through high-level natural language. However,
existing evaluation benchmarks for code generation inadequately assess an
agent's vibe coding capabilities. Existing benchmarks are misaligned, as they
either require code-level specifications or focus narrowly on issue-solving,
neglecting the critical scenario of feature implementation within the vibe
coding paradiam. To address this gap, we propose FeatBench, a novel benchmark
for vibe coding that focuses on feature implementation. Our benchmark is
distinguished by several key features: 1. Pure Natural Language Prompts. Task
inputs consist solely of abstract natural language descriptions, devoid of any
code or structural hints. 2. A Rigorous & Evolving Data Collection Process.
FeatBench is built on a multi-level filtering pipeline to ensure quality and a
fully automated pipeline to evolve the benchmark, mitigating data
contamination. 3. Comprehensive Test Cases. Each task includes Fail-to-Pass
(F2P) and Pass-to-Pass (P2P) tests to verify correctness and prevent
regressions. 4. Diverse Application Domains. The benchmark includes
repositories from diverse domains to ensure it reflects real-world scenarios.
We evaluate two state-of-the-art agent frameworks with four leading LLMs on
FeatBench. Our evaluation reveals that feature implementation within the vibe
coding paradigm is a significant challenge, with the highest success rate of
only 29.94%. Our analysis also reveals a tendency for "aggressive
implementation," a strategy that paradoxically leads to both critical failures
and superior software design. We release FeatBench, our automated collection
pipeline, and all experimental results to facilitate further community
research.
Ссылки и действия
Дополнительные ресурсы: