AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions
2508.16402v1
cs.SE, cs.CL
2025-08-26
Авторы:
Zihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding
Резюме на русском
## Контекст
Готовность бо LLM (Large Language Models) к выполнению предметно-ориентированных задач, в том числе кодированию и решению проблем, является ключевым признаком их эффективности. Одним из самых вызововательных и позиционированных вариантов использования LLMs является их применение в конкурентных программировании, где необходимо решать комплексные, нелинейные задачи. Однако последние исследования показали, что хотя LLMs проявляют впечатляющую эффективность на различных метриках, они все еще далеко недостигают уровня элитных программистов в контексте реального измерения. Недостаток надежных и качественных бенчмарков, способных точно оценивать соответствие LLMs критериям элитных программистов, оставляет за собой вопросы о реальных технических и логических характеристиках LLMs. AetherCode предлагается как новый бенчмарк, нацеленный на выявление этих проблем и улучшения оценочных критериев.
## Метод
AetherCode представляет собой современный платформенный подход к оценке LLMs, основанный на использовании реальных задач, взятых из престижных программистских соревнований, таких как IOI (International Olympiad in Informatics) и ICPC (International Collegiate Programming Contest). Весь процесс построения бенчмарка основывается на трех ключевых этапах: (1) сбор и преобразование задач, (2) разработка и проверка внешних тестовых ситуаций, и (3) оценка результатов с использованием многоуровневого подхода. Основные технические решения включают в себя разработку автоматизированных систем для генерации тестовых сценариев, а также интеграцию экспертных оценок для достижения высокой точности и репрезентативности. Метод гарантирует, что LLMs будут оцениваться не только по их моделированию информации, но и по их способности к решению реальных задач программирования.
## Результаты
Исследовательская группа провела тщательные эксперименты, протестировав AetherCode на нескольких вариантах LLMs, включая как современные модели, так и более старые. Эксперименты показали, что LLMs, несмотря на их высокую оценку на других метриках, испытывают значительные сложности при решении задач AetherCode. Например, значительная часть моделей столкнулась с проблемами в обработке высокосложностных задач, включая задачи, требующие углубленного логического и тематического понимания. Это свидетельствует об огромном разрыве между текущим уровнем LLMs и уровнем элитных программистов, указывая на необходимость дальнейшего усовершенствования. Результаты также подтверждают, что AetherCode может служить как надежная метрика для оценки прогресса LLMs в области кодирования и решения проблем.
## Значимость
AetherCode открывает новые возможности для развития и оценки LLMs в контексте реальных задач кодирования.
Abstract
Competitive programming has emerged as a critical benchmark for evaluating
the reasoning and coding capabilities of Large Language Models (LLMs). Despite
impressive progress on existing benchmarks, we argue that current evaluations
overstate model proficiency, masking a substantial gap between LLMs and elite
human programmers. This gap arises from two key limitations: insufficient
difficulty and scope of benchmark problems, and evaluation bias from
low-quality test cases. To address these shortcomings, we present AetherCode, a
new benchmark that draws problems from premier programming competitions such as
IOI and ICPC, offering broader coverage and higher difficulty. AetherCode
further incorporates comprehensive, expert-validated test suites built through
a hybrid of automated generation and human curation, ensuring rigorous and
reliable assessment. By combining challenging problem design with robust
evaluation, AetherCode provides a more faithful measure of LLM capabilities and
sets a new standard for future research in code reasoning.
Ссылки и действия
Дополнительные ресурсы: