AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

2508.16402v1 cs.SE, cs.CL 2025-08-26
Авторы:

Zihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding

Резюме на русском

## Контекст Готовность бо LLM (Large Language Models) к выполнению предметно-ориентированных задач, в том числе кодированию и решению проблем, является ключевым признаком их эффективности. Одним из самых вызововательных и позиционированных вариантов использования LLMs является их применение в конкурентных программировании, где необходимо решать комплексные, нелинейные задачи. Однако последние исследования показали, что хотя LLMs проявляют впечатляющую эффективность на различных метриках, они все еще далеко недостигают уровня элитных программистов в контексте реального измерения. Недостаток надежных и качественных бенчмарков, способных точно оценивать соответствие LLMs критериям элитных программистов, оставляет за собой вопросы о реальных технических и логических характеристиках LLMs. AetherCode предлагается как новый бенчмарк, нацеленный на выявление этих проблем и улучшения оценочных критериев. ## Метод AetherCode представляет собой современный платформенный подход к оценке LLMs, основанный на использовании реальных задач, взятых из престижных программистских соревнований, таких как IOI (International Olympiad in Informatics) и ICPC (International Collegiate Programming Contest). Весь процесс построения бенчмарка основывается на трех ключевых этапах: (1) сбор и преобразование задач, (2) разработка и проверка внешних тестовых ситуаций, и (3) оценка результатов с использованием многоуровневого подхода. Основные технические решения включают в себя разработку автоматизированных систем для генерации тестовых сценариев, а также интеграцию экспертных оценок для достижения высокой точности и репрезентативности. Метод гарантирует, что LLMs будут оцениваться не только по их моделированию информации, но и по их способности к решению реальных задач программирования. ## Результаты Исследовательская группа провела тщательные эксперименты, протестировав AetherCode на нескольких вариантах LLMs, включая как современные модели, так и более старые. Эксперименты показали, что LLMs, несмотря на их высокую оценку на других метриках, испытывают значительные сложности при решении задач AetherCode. Например, значительная часть моделей столкнулась с проблемами в обработке высокосложностных задач, включая задачи, требующие углубленного логического и тематического понимания. Это свидетельствует об огромном разрыве между текущим уровнем LLMs и уровнем элитных программистов, указывая на необходимость дальнейшего усовершенствования. Результаты также подтверждают, что AetherCode может служить как надежная метрика для оценки прогресса LLMs в области кодирования и решения проблем. ## Значимость AetherCode открывает новые возможности для развития и оценки LLMs в контексте реальных задач кодирования.

Abstract

Competitive programming has emerged as a critical benchmark for evaluating the reasoning and coding capabilities of Large Language Models (LLMs). Despite impressive progress on existing benchmarks, we argue that current evaluations overstate model proficiency, masking a substantial gap between LLMs and elite human programmers. This gap arises from two key limitations: insufficient difficulty and scope of benchmark problems, and evaluation bias from low-quality test cases. To address these shortcomings, we present AetherCode, a new benchmark that draws problems from premier programming competitions such as IOI and ICPC, offering broader coverage and higher difficulty. AetherCode further incorporates comprehensive, expert-validated test suites built through a hybrid of automated generation and human curation, ensuring rigorous and reliable assessment. By combining challenging problem design with robust evaluation, AetherCode provides a more faithful measure of LLM capabilities and sets a new standard for future research in code reasoning.

Ссылки и действия