Benchmark-Driven Selection of AI: Evidence from DeepSeek-R1

2508.10173v1 cs.LG, cs.CY 2025-08-15
Авторы:

Petr Spelda, Vit Stritecky

Резюме на русском

## Контекст Оценка моделей логического рассуждения и их перспективные модели области исследования в последнее время привлекла большой интерес. Известно, что модели могут объединять существующие способности в новые цепочки последовательных шагов, которые могут помочь им лучше соответствовать новым ситуациям. Однако проблема заключается в том, что навык последовательного рассуждения, как правило, развивается не постоянно, а в зависимости от типа задач и используемых методов. Эта неоднородность делает необходимым подробное изучение моделей и их результатов, особенно в критически важных задачах. В настоящем исследовании уделяется внимание определенной модели, которая использует сложные тестовые задачи для развития способности рассуждать, что может стать новым направлением в области глубокого обучения. ## Метод Метод, использованный в исследовании, основывается на построении последовательных проблем, которые стремятся к постоянному улучшению моделей рассуждения. Эта последовательность задач, в данном случае из серии "Humanity's Last Exam", используется как бенчмарк для развития моделей. Было показано, что модели, сталкивающиеся с усложненными тестами, способны лучше приспособиться к новым задачам в своей области. Основное техническое решение заключается в использовании сложности задач, которые модель должна решать с целью улучшения своих прогностических способностей. Это позволяет не только улучшать модель, но и измерять ее уровень общей обобщающей способности. ## Результаты В результате исследования были проведены эксперименты, в ходе которых были выделены определенные моменты, где модель DeepSeek-R1 показала лучшую производительность в сравнении с другими моделями. Эти результаты достигнуты благодаря использованию бенчмарков, которые не только измеряют модель, но и становятся частью процесса обучения. Было показано, что модель DeepSeek-R1 превзошла другие модели в тестах, где необходимо было применять последовательное решение проблем. Таким образом, модель DeepSeek-R1 становится примером того, что развитие моделей рассуждения может быть более эффективным, когда они конкретно тренируются с использованием усложненных задач. ## Значимость Результаты имеют значительное значение в области машинного обучения, поскольку показывают, что новизна и сложность тестовых задач могут играть ключевую роль в улучшении моделей. Этот подход может быть применен не только в развитии моделей логического рассуждения, но и в других областях, где требуется постоянное улучшение способности моделей. Использование бенчмарков как базы для обучения моделей может стать новым направлением в обучении моделей, ко

Abstract

Evaluation of reasoning language models gained importance after it was observed that they can combine their existing capabilities into novel traces of intermediate steps before task completion and that the traces can sometimes help them to generalize better than past models. As reasoning becomes the next scaling dimension of large language models, careful study of their capabilities in critical tasks is needed. We show that better performance is not always caused by test-time algorithmic improvements or model sizes but also by using impactful benchmarks as curricula for learning. We call this benchmark-driven selection of AI and show its effects on DeepSeek-R1 using our sequential decision-making problem from Humanity's Last Exam. Steering development of AI by impactful benchmarks trades evaluation for learning and makes novelty of test tasks key for measuring generalization capabilities of reasoning models. Consequently, some benchmarks could be seen as curricula for training rather than unseen test sets.

Ссылки и действия