COMPASS: A Multi-Dimensional Benchmark for Evaluating Code Generation in Large Language Models
2508.13757v1
cs.SE, cs.AI
2025-08-21
Авторы:
James Meaden, Michał Jarosz, Piotr Jodłowski, Grigori Melnik
Резюме на русском
## Контекст
Код-генерирующие генеритивные модели языков (LLMs) становятся все более популярными, особенно в контексте задач разработки программного обеспечения. Однако существующие бенчмарки для оценки кода, генерируемого LLMs, ограничиваются лишь оценкой функциональной корректности решений. Это пропуск недостаточной учети значимых аспектов программирования в реальном мире: эффективность алгоритмов и качество кода. Эти факторы являются критически важными для разработки производительных и поддерживаемых в будущем систем. Без их учета невозможно получить полную картину того, насколько эффективно и качественно LLMs могут сгенерировать код.
## Метод
COMPASS (COdility's Multi-dimensional Programming ASSessment) — это систематический фреймворк, который оценивает код-генерирующие модели по трем ключевым параметрам: корректности, эффективности и качеству кода. Он включает 50 задач программирования, извлеченных из реальных соревнований кодинга Codility, и использует базы данных с подсчетом 393,150 подmissions. Задачи охватывают различные аспекты программирования, включая сложные и прикладные задачи.
В отличие от других бенчмарков, которые считают алгоритмически неэффективные решения корректными в случае прохождения тестов, COMPASS использует индустрийный анализ эффективности кода и качества написания. Он оценивает эти аспекты с помощью инструментов, используемых в промышленности.
## Результаты
По результатам экспериментов, проведенных с помощью трех лидирующих моделей LLM (Anthropic Claude Opus 4, Google Gemini 2.5 Pro, и OpenAI O4-Mini-High), установлено, что модели, показывающие высокий показатель корректности, не обязательно способны генерировать код, который был бы эффективен с точки зрения алгоритмов или сохранял бы качество кода. Например, Google Gemini 2.5 Pro показал значительные отличия в эффективности задач с алгоритмическим слоем, несмотря на высокое качество кода.
## Значимость
COMPASS устанавливает новый шаблон для оценки кодогенерирующих моделей LLMs, лежащий в основе их реального потенциала в производственных системах. Он подчеркивает необходимость учета не только функциональной корректности, но и других аспектов кода, таких как эффективность и стиль. Этот подход к оценке LLMs может способствовать развитию моделей, которые будут более надежными, эффективными и пригодными для использования в реальных проектах программирования.
## Выводы
COMPASS вводит новый подход к оценке кодогенерирующих моделей, включая оценку не только корректности, но и эффективности и качества кода. Эти аспекты являются критически важными для разработки программного обеспечения в реа
Abstract
Current code generation benchmarks focus primarily on functional correctness
while overlooking two critical aspects of real-world programming: algorithmic
efficiency and code quality. We introduce COMPASS (COdility's Multi-dimensional
Programming ASSessment), a comprehensive evaluation framework that assesses
code generation across three dimensions: correctness, efficiency, and quality.
COMPASS consists of 50 competitive programming problems from real Codility
competitions, providing authentic human baselines from 393,150 submissions.
Unlike existing benchmarks that treat algorithmically inefficient solutions
identically to optimal ones provided they pass test cases, COMPASS
systematically evaluates runtime efficiency and code quality using
industry-standard analysis tools. Our evaluation of three leading
reasoning-enhanced models, Anthropic Claude Opus 4, Google Gemini 2.5 Pro, and
OpenAI O4-Mini-High, reveals that models achieving high correctness scores do
not necessarily produce efficient algorithms or maintainable code. These
findings highlight the importance of evaluating more than just correctness to
truly understand the real-world capabilities of code generation models. COMPASS
serves as a guiding framework, charting a path for future research toward AI
systems that are robust, reliable, and ready for production use.
Ссылки и действия
Дополнительные ресурсы: