Benchmark-Driven Selection of AI: Evidence from DeepSeek-R1
2508.10173v1
cs.LG, cs.CY
2025-08-15
Авторы:
Petr Spelda, Vit Stritecky
Резюме на русском
## Контекст
Оценка моделей логического рассуждения и их перспективные модели области исследования в последнее время привлекла большой интерес. Известно, что модели могут объединять существующие способности в новые цепочки последовательных шагов, которые могут помочь им лучше соответствовать новым ситуациям. Однако проблема заключается в том, что навык последовательного рассуждения, как правило, развивается не постоянно, а в зависимости от типа задач и используемых методов. Эта неоднородность делает необходимым подробное изучение моделей и их результатов, особенно в критически важных задачах. В настоящем исследовании уделяется внимание определенной модели, которая использует сложные тестовые задачи для развития способности рассуждать, что может стать новым направлением в области глубокого обучения.
## Метод
Метод, использованный в исследовании, основывается на построении последовательных проблем, которые стремятся к постоянному улучшению моделей рассуждения. Эта последовательность задач, в данном случае из серии "Humanity's Last Exam", используется как бенчмарк для развития моделей. Было показано, что модели, сталкивающиеся с усложненными тестами, способны лучше приспособиться к новым задачам в своей области. Основное техническое решение заключается в использовании сложности задач, которые модель должна решать с целью улучшения своих прогностических способностей. Это позволяет не только улучшать модель, но и измерять ее уровень общей обобщающей способности.
## Результаты
В результате исследования были проведены эксперименты, в ходе которых были выделены определенные моменты, где модель DeepSeek-R1 показала лучшую производительность в сравнении с другими моделями. Эти результаты достигнуты благодаря использованию бенчмарков, которые не только измеряют модель, но и становятся частью процесса обучения. Было показано, что модель DeepSeek-R1 превзошла другие модели в тестах, где необходимо было применять последовательное решение проблем. Таким образом, модель DeepSeek-R1 становится примером того, что развитие моделей рассуждения может быть более эффективным, когда они конкретно тренируются с использованием усложненных задач.
## Значимость
Результаты имеют значительное значение в области машинного обучения, поскольку показывают, что новизна и сложность тестовых задач могут играть ключевую роль в улучшении моделей. Этот подход может быть применен не только в развитии моделей логического рассуждения, но и в других областях, где требуется постоянное улучшение способности моделей. Использование бенчмарков как базы для обучения моделей может стать новым направлением в обучении моделей, ко
Abstract
Evaluation of reasoning language models gained importance after it was
observed that they can combine their existing capabilities into novel traces of
intermediate steps before task completion and that the traces can sometimes
help them to generalize better than past models. As reasoning becomes the next
scaling dimension of large language models, careful study of their capabilities
in critical tasks is needed. We show that better performance is not always
caused by test-time algorithmic improvements or model sizes but also by using
impactful benchmarks as curricula for learning. We call this benchmark-driven
selection of AI and show its effects on DeepSeek-R1 using our sequential
decision-making problem from Humanity's Last Exam. Steering development of AI
by impactful benchmarks trades evaluation for learning and makes novelty of
test tasks key for measuring generalization capabilities of reasoning models.
Consequently, some benchmarks could be seen as curricula for training rather
than unseen test sets.
Ссылки и действия
Дополнительные ресурсы: