FeatBench: Evaluating Coding Agents on Feature Implementation for Vibe Coding

2509.22237v1 cs.CL, cs.AI, cs.SE 2025-09-30
Авторы:

Haorui Chen, Chengze Li, Jia Li

Резюме на русском

## Контекст Современные Large Language Models (LLMs) вводят новый парадигму в программировании, называемую "vibe coding", где пользователи взаимодействуют с кодинг-агентами с помощью высокоуровневого естественного языка. Это парадигма делает программирование более доступным и простым для новичков. Однако существующие оценочные бенчмарки для кодогенерации не эффективно оценивают эти модели в контексте vibe coding. Они либо требуют кода-спецификаций, либо фокусируются исключительно на решении конкретных проблем, не учитывая ключевой сценарий — реализацию функций в рамках этого парадигма. Этот недостаток в оценке приводит к недостаточному пониманию того, насколько эффективно агенты могут работать в реальных сценариях. ## Метод Для оценки моделей в контексте vibe coding мы предлагаем FeatBench — новый бенчмарк, ориентированный на реализацию функций. FeatBench включает несколько ключевых особенностей: 1. **Применение Натурального Языка**: Задачи описаны только естественным языком, без использования кода или структурных подсказок. 2. **Комплексная Дорожная Карта**: Мы применяем жесткую многоуровневую фильтрацию для обеспечения качества данных и автоматизируемую систему для её постоянного обновления. 3. **Обобщенные Тест-Кейсы**: Каждая задача включает Fail-to-Pass (F2P) и Pass-to-Pass (P2P) тестовые случаи, чтобы проверить точность решения и предотвратить регрессию. 4. **Разнообразные Домены**: Бенчмарк охватывает задачи из различных областей для лучшего отражения реальных условий. ## Результаты Мы провели эксперименты с двумя современными фреймворками для кода-агентов, используя четыре лидирующих модели естественного языка. Наши результаты показали, что реализация функций в рамках vibe coding — это серьезный вызов, с максимальной успешностью лишь 29.94%. Мы также обнаружили тенденцию к "агрессивной реализации" — стратегии, которая приводит к как к критическим ошибкам, так и к более удобному программированию. ## Значимость FeatBench может быть применен в разработке и оценке моделей программирования, которые должны работать в стиле vibe coding. Его преимущества заключаются в том, что он предлагает более точную оценку моделей в реальных условиях, чем существующие бенчмарки. Будущие исследования могут использовать этот бенчмарк для усовершенствования моделей и поиска решений для сложных задач реализации функций. ## Выводы Результаты нашего исследования подтверждают значимость FeatBench в оценке моделей в контексте vibe coding. Мы открываем доступ к FeatBench, автоматизированной системе сбора данных и результатам наших экспериментов, чтобы поощрить дальнейшу

Abstract

The rapid advancement of Large Language Models (LLMs) has given rise to a novel software development paradigm known as "vibe coding," where users interact with coding agents through high-level natural language. However, existing evaluation benchmarks for code generation inadequately assess an agent's vibe coding capabilities. Existing benchmarks are misaligned, as they either require code-level specifications or focus narrowly on issue-solving, neglecting the critical scenario of feature implementation within the vibe coding paradiam. To address this gap, we propose FeatBench, a novel benchmark for vibe coding that focuses on feature implementation. Our benchmark is distinguished by several key features: 1. Pure Natural Language Prompts. Task inputs consist solely of abstract natural language descriptions, devoid of any code or structural hints. 2. A Rigorous & Evolving Data Collection Process. FeatBench is built on a multi-level filtering pipeline to ensure quality and a fully automated pipeline to evolve the benchmark, mitigating data contamination. 3. Comprehensive Test Cases. Each task includes Fail-to-Pass (F2P) and Pass-to-Pass (P2P) tests to verify correctness and prevent regressions. 4. Diverse Application Domains. The benchmark includes repositories from diverse domains to ensure it reflects real-world scenarios. We evaluate two state-of-the-art agent frameworks with four leading LLMs on FeatBench. Our evaluation reveals that feature implementation within the vibe coding paradigm is a significant challenge, with the highest success rate of only 29.94%. Our analysis also reveals a tendency for "aggressive implementation," a strategy that paradoxically leads to both critical failures and superior software design. We release FeatBench, our automated collection pipeline, and all experimental results to facilitate further community research.

Ссылки и действия

Связанные статьи

RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

## Контекст Развитие бо LARGE LANGUAGE MODELS (LLMs) в области программирования позволило эффективно решать задачи по фу...

2025-09-24

RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

## Контекст Репозиторий — это основной контейнер для хранения и управления программным кодом. Генерация репозитория с ну...

2025-09-23