Open-sci-ref-0.01: open and reproducible reference baselines for language model and dataset comparison
2509.09009v1
cs.LG, cs.AI, cs.CL
2025-09-13
Авторы:
Marianna Nezhurina, Taishi Nakamura, Timur Carstensen, Niccolò Ajroldi, Ville Komulainen, David Salinas, Jenia Jitsev
Резюме на русском
## Контекст
Последние годы статистические языковые модели становятся все более популярными в различных сферах, от научных исследований до прикладных решений. Однако появление новых моделей часто приводит к сложностям в их сравнении, так как отсутствуют стандартизированные референсные модели и данные, позволяющие провести стандартизированные эксперименты. Это приводит к неоднозначности в оценке качества новых моделей и даже датасетов. Мы предлагаем open-sci-ref — семейство трансформерных моделей, обученных для использования в качестве референсных базисных моделей для сравнения с другими моделями и датасетовами. Эта инициатива способна способствовать улучшению стандартизации в области языковых моделей.
## Метод
Мы обучили 8 моделей с разными параметрами (от 0.13B до 1.7B) и размерами токенов (до 1T) на 8 открытых датасетов. Обучение проводилось с использованием гибридной топологии, что позволяет эффективно использовать ресурсы. Модели обучались в несколько этапов, чтобы оценить их динамику и сравнить качество по результатам на различных бенчмарках. Также реализованы intermediate checkpoints, которые становятся доступными для общественности, что позволяет проводить подробный анализ тренировочной динамики. Мы также выпустили дополнительные ресурсы, такие как код, логи тренировки, а также результаты оценки на downstream tasks.
## Результаты
Мы провели эксперименты с новыми моделями на различных бенчмарках и сравнили их с другими моделями. Мы установили, что модели, обученные на NemoTron-CC HQ, показывают лучшие результаты в различных задачах. Мы также обнаружили, что разное масштабирование моделей и датасетов влияет на результаты, и что оптимальный размер модели зависит от данных, на которых она обучается. Наши результаты позволяют стандартизировать сравнение моделей и датасетов, делая их результаты более предсказуемыми и сравнимыми.
## Значимость
Мы представляем open-sci-ref как открытую и реплицируемую базу данных для сравнения моделей и датасетов в области языковых моделей. Наши результаты могут быть полезны для разных областей, включая научные исследований, разработку новых моделей и приложений. Мы продемонстрировали, что использование NemoTron-CC HQ в качестве датасета для обучения модели может привести к более качественным результатам, чем использование других датасетов. Этот подход может помочь ускорить прогресс в области языковых моделей, сделав их сравнение более цельным и эффективным.
## Выводы
Мы представили open-sci-ref — семейство моделей, которое ставит своей целью стандартизацию сравнения моделей и датасетов в области языковых моделей. Мы показали, что наш подход может способствовать более точ
Abstract
We introduce open-sci-ref, a family of dense transformer models trained as
research baselines across multiple model (0.13B to 1.7B parameters) and token
scales (up to 1T) on 8 recent open reference datasets. Evaluating the models on
various standardized benchmarks, our training runs set establishes reference
points that enable researchers to assess the sanity and quality of alternative
training approaches across scales and datasets. Intermediate checkpoints allow
comparison and studying of the training dynamics. The established reference
baselines allow training procedures to be compared through their scaling
trends, aligning them on a common compute axis. Comparison of open reference
datasets reveals that training on NemoTron-CC HQ consistently outperforms other
reference datasets, followed by DCLM-baseline and FineWeb-Edu. In addition to
intermediate training checkpoints, the release includes logs, code, and
downstream evaluations to simplify reproduction, standardize comparison, and
facilitate future research.
Ссылки и действия
Дополнительные ресурсы: