Open-sci-ref-0.01: open and reproducible reference baselines for language model and dataset comparison

2509.09009v1 cs.LG, cs.AI, cs.CL 2025-09-13
Авторы:

Marianna Nezhurina, Taishi Nakamura, Timur Carstensen, Niccolò Ajroldi, Ville Komulainen, David Salinas, Jenia Jitsev

Резюме на русском

## Контекст Последние годы статистические языковые модели становятся все более популярными в различных сферах, от научных исследований до прикладных решений. Однако появление новых моделей часто приводит к сложностям в их сравнении, так как отсутствуют стандартизированные референсные модели и данные, позволяющие провести стандартизированные эксперименты. Это приводит к неоднозначности в оценке качества новых моделей и даже датасетов. Мы предлагаем open-sci-ref — семейство трансформерных моделей, обученных для использования в качестве референсных базисных моделей для сравнения с другими моделями и датасетовами. Эта инициатива способна способствовать улучшению стандартизации в области языковых моделей. ## Метод Мы обучили 8 моделей с разными параметрами (от 0.13B до 1.7B) и размерами токенов (до 1T) на 8 открытых датасетов. Обучение проводилось с использованием гибридной топологии, что позволяет эффективно использовать ресурсы. Модели обучались в несколько этапов, чтобы оценить их динамику и сравнить качество по результатам на различных бенчмарках. Также реализованы intermediate checkpoints, которые становятся доступными для общественности, что позволяет проводить подробный анализ тренировочной динамики. Мы также выпустили дополнительные ресурсы, такие как код, логи тренировки, а также результаты оценки на downstream tasks. ## Результаты Мы провели эксперименты с новыми моделями на различных бенчмарках и сравнили их с другими моделями. Мы установили, что модели, обученные на NemoTron-CC HQ, показывают лучшие результаты в различных задачах. Мы также обнаружили, что разное масштабирование моделей и датасетов влияет на результаты, и что оптимальный размер модели зависит от данных, на которых она обучается. Наши результаты позволяют стандартизировать сравнение моделей и датасетов, делая их результаты более предсказуемыми и сравнимыми. ## Значимость Мы представляем open-sci-ref как открытую и реплицируемую базу данных для сравнения моделей и датасетов в области языковых моделей. Наши результаты могут быть полезны для разных областей, включая научные исследований, разработку новых моделей и приложений. Мы продемонстрировали, что использование NemoTron-CC HQ в качестве датасета для обучения модели может привести к более качественным результатам, чем использование других датасетов. Этот подход может помочь ускорить прогресс в области языковых моделей, сделав их сравнение более цельным и эффективным. ## Выводы Мы представили open-sci-ref — семейство моделей, которое ставит своей целью стандартизацию сравнения моделей и датасетов в области языковых моделей. Мы показали, что наш подход может способствовать более точ

Abstract

We introduce open-sci-ref, a family of dense transformer models trained as research baselines across multiple model (0.13B to 1.7B parameters) and token scales (up to 1T) on 8 recent open reference datasets. Evaluating the models on various standardized benchmarks, our training runs set establishes reference points that enable researchers to assess the sanity and quality of alternative training approaches across scales and datasets. Intermediate checkpoints allow comparison and studying of the training dynamics. The established reference baselines allow training procedures to be compared through their scaling trends, aligning them on a common compute axis. Comparison of open reference datasets reveals that training on NemoTron-CC HQ consistently outperforms other reference datasets, followed by DCLM-baseline and FineWeb-Edu. In addition to intermediate training checkpoints, the release includes logs, code, and downstream evaluations to simplify reproduction, standardize comparison, and facilitate future research.

Ссылки и действия