Open-sci-ref-0.01: open and reproducible reference baselines for language model and dataset comparison

2509.09009v2 cs.LG, cs.AI, cs.CL 2025-09-15
Авторы:

Marianna Nezhurina, Jörg Franke, Taishi Nakamura, Timur Carstensen, Niccolò Ajroldi, Ville Komulainen, David Salinas, Jenia Jitsev

Резюме на русском

#### Контекст Современное исследование в области глубокого обучения сталкивается с проблемой несогласованности в результатах, вызванной разными моделями и данными, а также отсутствием прозрачных и открытых стандартов для сравнения. Эти проблемы затрудняют возможность сравнения новых моделей и данных с уже существующими решениями. Также отсутствуют открытые референсные модели, которые могли бы служить базой для выявления ошибок в разработке новых моделей и давать возможность сравнивать их субъективные результаты. #### Метод Мы представляем **open-sci-ref** — семейство трансформерных моделей разных размеров (от 0.13 до 1.7 миллиардов параметров) и разных масштабов токенов (до 1 триллиона токенов), обученных на открытых данных. Модели обучались на 8 референсных датасетах, чтобы обеспечить прозрачность и сравнение существующих решений. Мы также выпустили версию модели с интерфейсом для нескольких языков, чтобы улучшить сравнение моделей в разных языковых средах. Для расширения возможностей сравнения, мы выпустили не только модели, но и их интерфейсы для разных языков, чтобы повысить эффективность и прозрачность сравнения. #### Результаты Проведенные эксперименты показали, что модели open-sci-ref-0.01 позволяют сравнить результаты разных моделей и дают прозрачные стандарты для выгодного сравнения. Мы проанализировали несколько датасетов и продемонстрировали, что **NemoTron-CC HQ** показал лучший результат, после которого следуют **DCLM-baseline** и **FineWeb-Edu**. Мы также выпустили код и логи, чтобы другие исследователи могли проверить и продолжить развитие наших результатов. #### Значимость Открытые модели open-sci-ref-0.01 могут помочь улучшить стандарты сравнения новых моделей и дать базу для последующих исследований. Мы демонстрируем, что модели могут быть более эффективны и открытыми, что может привести к повышению доверия к результатам. Эти модели могут быть применены в различных областях, где требуется сравнение моделей, например, в медицине, образовании и других сферах. #### Выводы Мы установили стандартные модели, которые могут служить основой для сравнения других моделей и давать прозрачный подход к их сравнению. Наши решения помогают выявить ошибки в разработке моделей и создать прозрачные стандарты для дальнейших экспериментов. Мы направляемся на дальнейшее улучшение и расширение этой модели, чтобы сделать исследования в области глубокого обучения более открытыми и доступными.

Abstract

We introduce open-sci-ref, a family of dense transformer models trained as research baselines across multiple model (0.13B to 1.7B parameters) and token scales (up to 1T) on 8 recent open reference datasets. Evaluating the models on various standardized benchmarks, our training runs set establishes reference points that enable researchers to assess the sanity and quality of alternative training approaches across scales and datasets. Intermediate checkpoints allow comparison and studying of the training dynamics. The established reference baselines allow training procedures to be compared through their scaling trends, aligning them on a common compute axis. Comparison of open reference datasets reveals that training on NemoTron-CC HQ consistently outperforms other reference datasets, followed by DCLM-baseline and FineWeb-Edu. In addition to intermediate training checkpoints, the release includes logs, code, and downstream evaluations to simplify reproduction, standardize comparison, and facilitate future research.

Ссылки и действия