📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Mykyta Syromiatnikov, Victoria Ruvinskaya

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Evaluating the real capabilities of large language models in low-resource languages still represents a challenge, as many existing benchmarks focus on widespread tasks translated from English or evaluate only simple language understanding. This paper introduces UA-Code-Bench, a new open-source benchmark established for a thorough evaluation of language models' code generation and competitive programming problem-solving abilities in Ukrainian. The benchmark comprises 500 problems from the Eolymp ...
ID: 2511.05040v1 cs.CL, cs.AI, cs.SE
Авторы:

Haorui Chen, Chengze Li, Jia Li

## Контекст Современные Large Language Models (LLMs) вводят новый парадигму в программировании, называемую "vibe coding", где пользователи взаимодействуют с кодинг-агентами с помощью высокоуровневого естественного языка. Это парадигма делает программирование более доступным и простым для новичков. Однако существующие оценочные бенчмарки для кодогенерации не эффективно оценивают эти модели в контексте vibe coding. Они либо требуют кода-спецификаций, либо фокусируются исключительно на решении конкретных проблем, не учитывая ключевой сценарий — реализацию функций в рамках этого парадигма. Этот недостаток в оценке приводит к недостаточному пониманию того, насколько эффективно агенты могут работать в реальных сценариях. ## Метод Для оценки моделей в контексте vibe coding мы предлагаем FeatBench — новый бенчмарк, ориентированный на реализацию функций. FeatBench включает несколько ключевых особенностей: 1. **Применение Натурального Языка**: Задачи описаны только естественным языком, без использования кода или структурных подсказок. 2. **Комплексная Дорожная Карта**: Мы применяем жесткую многоуровневую фильтрацию для обеспечения качества данных и автоматизируемую систему для её постоянного обновления. 3. **Обобщенные Тест-Кейсы**: Каждая задача включает Fail-to-Pass (F2P) и Pass-to-Pass (P2P) тестовые случаи, чтобы проверить точность решения и предотвратить регрессию. 4. **Разнообразные Домены**: Бенчмарк охватывает задачи из различных областей для лучшего отражения реальных условий. ## Результаты Мы провели эксперименты с двумя современными фреймворками для кода-агентов, используя четыре лидирующих модели естественного языка. Наши результаты показали, что реализация функций в рамках vibe coding — это серьезный вызов, с максимальной успешностью лишь 29.94%. Мы также обнаружили тенденцию к "агрессивной реализации" — стратегии, которая приводит к как к критическим ошибкам, так и к более удобному программированию. ## Значимость FeatBench может быть применен в разработке и оценке моделей программирования, которые должны работать в стиле vibe coding. Его преимущества заключаются в том, что он предлагает более точную оценку моделей в реальных условиях, чем существующие бенчмарки. Будущие исследования могут использовать этот бенчмарк для усовершенствования моделей и поиска решений для сложных задач реализации функций. ## Выводы Результаты нашего исследования подтверждают значимость FeatBench в оценке моделей в контексте vibe coding. Мы открываем доступ к FeatBench, автоматизированной системе сбора данных и результатам наших экспериментов, чтобы поощрить дальнейшу
Annotation:
The rapid advancement of Large Language Models (LLMs) has given rise to a novel software development paradigm known as "vibe coding," where users interact with coding agents through high-level natural language. However, existing evaluation benchmarks for code generation inadequately assess an agent's vibe coding capabilities. Existing benchmarks are misaligned, as they either require code-level specifications or focus narrowly on issue-solving, neglecting the critical scenario of feature impleme...
ID: 2509.22237v1 cs.CL, cs.AI, cs.SE
Авторы:

Jane Luo, Xin Zhang, Steven Liu, Jie Wu, Yiming Huang, Yangyu Huang, Chengyu Yin, Ying Xin, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Qi Chen, Scarlett Li, Mao Yang

## Контекст Развитие бо LARGE LANGUAGE MODELS (LLMs) в области программирования позволило эффективно решать задачи по функциональному и файловому уровню генерации кода. Однако создание полных репозиториев с нуля остается значительной проблемой. Этот процесс требует согласованного планирования на разных уровнях — предложении и реализации — в том числе с поддержкой сложных зависимостей, структур файлов и потоков данных. Недостаток естественных языков в терминах точности и сокращенности при представлении таких сложностей становится ключевой проблемой. Таким образом, вводится **Repository Planning Graph (RPG)** — универсальное, структурированное знание, которое соединяет планирование на уровне предложений и реализации в единой структуре. RPG предоставляет конкретное представление возможностей, структуры файлов, потоков данных и функций, позволяя улучшить планирование на долгосрочной основе и упростить генерацию репозиториев на большом масштабе. ## Метод RPG представляет собой улучшенное представление, которое построено на основе графов и использует экспериментальную модель для генерации репозитория. Метод строится на трех основных этапах: (1) **планирование на уровне предложений**, где RPG генерирует основу для инициализации репозитория, (2) **рефинирование на уровне реализации**, которое детализирует интерфейсы и функции, и (3) **графово-ориентированная генерация кода** с валидацией тестов. Это позволяет RPG выстроить связи между различными компонентами репозитория и обеспечить точную генерацию. Особенностью этого подхода является использование графа как основного средства планирования и контроля качества генерируемого кода. ## Результаты На основе RPG разработана модель **ZeroRepo**, которая успешно реализует подход к генерации репозиториев. В ходе экспериментов был создан и использован RepoCraft — бенчмарк, содержащий 1,052 задач для генерации репозиториев на основе реальных проектов. ZeroRepo показала следующие результаты: (1) **высокий уровень функционального покрытия** — 81.5%, (2) **высокая проходимость тестов** — 69.7%, (3) **сильное увеличение генерируемого кода** — 36K Code Lines, что примерно 3.9$\times$ выше сильнейшего базлайна (Claude Code) и 64$\times$ выше других моделей. Эти результаты подтверждают эффективность RPG в управлении сложными зависимостями и улучшении понимания LLMs в процессе генерации. ## Значимость ZeroRepo и RPG демонстрируют перспективу в области генерации репозиториев на большом масштабе. Они могут использоваться в различных сферах, включая **программное обеспечение с открытым кодом**, **создание корпорати
Annotation:
Large language models excel at function- and file-level code generation, yet generating complete repositories from scratch remains a fundamental challenge. This process demands coherent and reliable planning across proposal- and implementation-level stages, while natural language, due to its ambiguity and verbosity, is ill-suited for faithfully representing complex software structures. To address this, we introduce the Repository Planning Graph (RPG), a persistent representation that unifies pro...
ID: 2509.16198v2 cs.CL, cs.AI, cs.SE
Авторы:

Jane Luo, Xin Zhang, Steven Liu, Jie Wu, Yiming Huang, Yangyu Huang, Chengyu Yin, Ying Xin, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Qi Chen, Scarlett Li, Mao Yang

## Контекст Репозиторий — это основной контейнер для хранения и управления программным кодом. Генерация репозитория с нуля требует не только функционального кода, но также структуры и архитектуры. Существующие системы, основанные на текстовых запросах, часто страдают от неполноты и несогласованности, так как зависят от естественного языка, который не всегда представляет собой надежный инструмент для представления сложных структур программного обеспечения. Эта проблема ограничивает возможности генерации репозиториев и требует новых подходов для более точного и структурированного планирования. ## Метод Репозиторий Planning Graph (RPG) представляет собой персистентное представление, которое сочетает в себе планирование на уровне предложений и реализации. RPG кодирует в себе как структурные элементы (такие как файлы, модули и их зависимости), так и функциональные аспекты (такие как данные и функции). Это представление позволяет легко передавать сложные структуры в графы, которые могут быть использованы для долгосрочного планирования. На основе RPG разработана ZeroRepo, система, которая применяет графы для пошагового планирования и генерации репозиториев. ZeroRepo включает в себя: 1. **Планирование на уровне предложений**: генерация структур данных и функционального кода в виде графа. 2. **Планирование на уровне реализации**: уточнение структуры и добавление деталей. 3. **Граф-движок**: использование графа для генерации кода и проверки функциональности. ## Результаты Для оценки ZeroRepo, авторы разработали RepoCraft — бенчмарк, содержащий 6 реальных проектов с 1052 задачами. Задачи включали в себя генерацию репозиториев размером почти 36К строк кода. Результаты показали, что ZeroRepo: - Генерирует репозитории, примерно 3.9 раз больше, чем сильнейший базовый алгоритм Claude Code. - Достигает 81.5% функционального покрытия, что превосходит Claude Code на 27.3%. - Демонстрирует высокую стабильность и точность, в том числе высокие показатели передачи тестов (69.7%). ## Значимость ZeroRepo и RPG могут применяться в сферах, требующих структурированной генерации программного кода на большом масштабе. Они позволяют создавать гибкие и корректные репозитории, обеспечивая прозрачность и надежность в процессе генерации. Эти технологии могут существенно ускорить развитие программного обеспечения, позволив генерировать полные репозитории с меньшими ошибками и более высокой скоростью. ## Выводы ZeroRepo демонстрирует выдающиеся результаты в генерации репозиториев с нуля. Он использует RPG для значительного улучшения точности и комплексности ген
Annotation:
Large language models excel at function- and file-level code generation, yet generating complete repositories from scratch remains a fundamental challenge. This process demands coherent and reliable planning across proposal- and implementation-level stages, while natural language, due to its ambiguity and verbosity, is ill-suited for faithfully representing complex software structures. To address this, we introduce the Repository Planning Graph (RPG), a persistent representation that unifies pro...
ID: 2509.16198v1 cs.CL, cs.AI, cs.SE