National Running Club Database: Assessing Collegiate Club Athletes' Cross Country Race Results

2509.10600v2 cs.CY, cs.AI, cs.LG 2025-09-17
Авторы:

Jonathan A. Karr Jr, Ben Darden, Nicholas Pell, Ryan M. Fryer, Kayla Ambrose, Evan Hall, Ramzi K. Bualuan, Nitesh V. Chawla

Резюме на русском

## Контекст Спорт, в том числе среднестатистический бег, является не только физическим занятием, но и динамичным научным областью, требующим постоянного анализа и моделирования. Наблюдения за спортивными результатами позволяют отслеживать прогресс индивидуальных спортсменов, отлаживать стратегии тренировок и улучшать выполнение задач в командном взаимодействии. Однако существуют проблемы, связанные с недостаточным количеством доступных данных и неудобством в их получении. Для примера, ранее наблюдалось нехватка больших данных в сфере аматорского бега, что существенно ограничивало возможности по проведению полномасштабных исследований. Национальная база данных национальных бегунов (National Running Club Database, NRCD) решает эту проблему, предлагая обширный набор данных о бегах максимальных усилий, который может быть использован для анализа и совершенствования спортивных результатов. ## Метод Данные, используемые в NRCD, были собраны на протяжении двух сезонов кросс-бега, 2023 и 2024 годов. Набор данных включает 15,397 результатов побед в гонках 5,585 спортсменов. Для каждого спортсмена проводился анализ прогресса по индивидуальным временам, статистическая обработка информации получалась с учетом условий трассы, таких как уровень высоты и погода. Для стандартизации результатов разработана специальная модель, которая учитывает эти факторы. Набор данных был получен с помощью автоматизированных скрейперов, что упростило доступ к данным по сравнению с предшествующими методами, требувшими ручного сбора из интернета. ## Результаты Полученные результаты показывают, что скорость улучшения тем больше, чем более медленные инициальные времена у спортсмена и чем чаще он бегает. Для женщин, пробегающих 6,000 метров, и для мужчин, пробегающих 8,000 метров, оказалось, что улучшение за счет календарных дней происходит более сильно у спортсменов, которые начинали с менее приведенных результатов. Данные отражают статистическую закономерность в зависимости от характера трассы и погодных условий. Это позволило сделать данные более актуальными и универсальными для различных условий. ## Значимость Набор данных NRCD может быть применен в различных областях: от подготовки спортсменов до создания новых стратегий тренировок. Он может стать полезным для оценки прогресса бегунов, получения аналитических инсайтов и разработки новых моделей для повышения производительности. Кроме того, данные позволяют учитывать не только физиологические аспекты, но и условия среды, что делает их более широко применимыми в науке о спорте. ## В

Abstract

The National Running Club Database (NRCD) aggregates 15,397 race results of 5,585 athletes from the 2023 and 2024 cross country seasons. This paper introduces the NRCD dataset, which provides insights into individual athlete progressions, enabling data-driven decision-making. Analysis reveals that runners' improvement per calendar day for women, racing 6,000m, and men, racing 8,000m, is more pronounced in athletes with slower initial race times and those who race more frequently. Additionally, we factor in course conditions, including weather and elevation gain, to standardize improvement. While the NRCD shows a gender imbalance, 3,484 men vs. 2,101 women, the racing frequency between genders is comparable. This publication makes the NRCD dataset accessible to the research community, addressing a previous challenge where smaller datasets, often limited to 500 entries, had to be manually scraped from the internet. Focusing on club athletes rather than elite professionals offers a unique lens into the performance of real-world runners who balance competition with academics and other commitments. These results serve as a valuable resource for runners, coaches, and teams, bridging the gap between raw data and applied sports science.

Ссылки и действия

Связанные статьи

The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind

## Контекст В последние годы высокопроизводительные текстовые генеративные модели (LLMs) стали важной частью многих тех...

2025-09-26

Synthetic Data and the Shifting Ground of Truth

### Контекст В последние годы наблюдается всплеск интереса к синтетическим данным, которые используются для защиты конф...

2025-09-19