COMPASS: A Multi-Dimensional Benchmark for Evaluating Code Generation in Large Language Models

2508.13757v1 cs.SE, cs.AI 2025-08-21

Авторы:

James Meaden, Michał Jarosz, Piotr Jodłowski, Grigori Melnik

Резюме на русском

## Контекст Код-генерирующие генеритивные модели языков (LLMs) становятся все более популярными, особенно в контексте задач разработки программного обеспечения. Однако существующие бенчмарки для оценки кода, генерируемого LLMs, ограничиваются лишь оценкой функциональной корректности решений. Это пропуск недостаточной учети значимых аспектов программирования в реальном мире: эффективность алгоритмов и качество кода. Эти факторы являются критически важными для разработки производительных и поддерживаемых в будущем систем. Без их учета невозможно получить полную картину того, насколько эффективно и качественно LLMs могут сгенерировать код. ## Метод COMPASS (COdility's Multi-dimensional Programming ASSessment) — это систематический фреймворк, который оценивает код-генерирующие модели по трем ключевым параметрам: корректности, эффективности и качеству кода. Он включает 50 задач программирования, извлеченных из реальных соревнований кодинга Codility, и использует базы данных с подсчетом 393,150 подmissions. Задачи охватывают различные аспекты программирования, включая сложные и прикладные задачи. В отличие от других бенчмарков, которые считают алгоритмически неэффективные решения корректными в случае прохождения тестов, COMPASS использует индустрийный анализ эффективности кода и качества написания. Он оценивает эти аспекты с помощью инструментов, используемых в промышленности. ## Результаты По результатам экспериментов, проведенных с помощью трех лидирующих моделей LLM (Anthropic Claude Opus 4, Google Gemini 2.5 Pro, и OpenAI O4-Mini-High), установлено, что модели, показывающие высокий показатель корректности, не обязательно способны генерировать код, который был бы эффективен с точки зрения алгоритмов или сохранял бы качество кода. Например, Google Gemini 2.5 Pro показал значительные отличия в эффективности задач с алгоритмическим слоем, несмотря на высокое качество кода. ## Значимость COMPASS устанавливает новый шаблон для оценки кодогенерирующих моделей LLMs, лежащий в основе их реального потенциала в производственных системах. Он подчеркивает необходимость учета не только функциональной корректности, но и других аспектов кода, таких как эффективность и стиль. Этот подход к оценке LLMs может способствовать развитию моделей, которые будут более надежными, эффективными и пригодными для использования в реальных проектах программирования. ## Выводы COMPASS вводит новый подход к оценке кодогенерирующих моделей, включая оценку не только корректности, но и эффективности и качества кода. Эти аспекты являются критически важными для разработки программного обеспечения в реа

Abstract

Current code generation benchmarks focus primarily on functional correctness while overlooking two critical aspects of real-world programming: algorithmic efficiency and code quality. We introduce COMPASS (COdility's Multi-dimensional Programming ASSessment), a comprehensive evaluation framework that assesses code generation across three dimensions: correctness, efficiency, and quality. COMPASS consists of 50 competitive programming problems from real Codility competitions, providing authentic human baselines from 393,150 submissions. Unlike existing benchmarks that treat algorithmically inefficient solutions identically to optimal ones provided they pass test cases, COMPASS systematically evaluates runtime efficiency and code quality using industry-standard analysis tools. Our evaluation of three leading reasoning-enhanced models, Anthropic Claude Opus 4, Google Gemini 2.5 Pro, and OpenAI O4-Mini-High, reveals that models achieving high correctness scores do not necessarily produce efficient algorithms or maintainable code. These findings highlight the importance of evaluating more than just correctness to truly understand the real-world capabilities of code generation models. COMPASS serves as a guiding framework, charting a path for future research toward AI systems that are robust, reliable, and ready for production use.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

COMPASS: A Multi-Dimensional Benchmark for Evaluating Code Generation in Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operatio...

Quantitative Analysis of Technical Debt and Pattern Violation in Large Language ...

MANTRA: a Framework for Multi-stage Adaptive Noise TReAtment During Training

Beyond Greenfield: The D3 Framework for AI-Driven Productivity in Brownfield Eng...

LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reli...

Навигация