Open-sci-ref-0.01: open and reproducible reference baselines for language model and dataset comparison
2509.09009v2
cs.LG, cs.AI, cs.CL
2025-09-15
Авторы:
Marianna Nezhurina, Jörg Franke, Taishi Nakamura, Timur Carstensen, Niccolò Ajroldi, Ville Komulainen, David Salinas, Jenia Jitsev
Резюме на русском
#### Контекст
Современное исследование в области глубокого обучения сталкивается с проблемой несогласованности в результатах, вызванной разными моделями и данными, а также отсутствием прозрачных и открытых стандартов для сравнения. Эти проблемы затрудняют возможность сравнения новых моделей и данных с уже существующими решениями. Также отсутствуют открытые референсные модели, которые могли бы служить базой для выявления ошибок в разработке новых моделей и давать возможность сравнивать их субъективные результаты.
#### Метод
Мы представляем **open-sci-ref** — семейство трансформерных моделей разных размеров (от 0.13 до 1.7 миллиардов параметров) и разных масштабов токенов (до 1 триллиона токенов), обученных на открытых данных. Модели обучались на 8 референсных датасетах, чтобы обеспечить прозрачность и сравнение существующих решений. Мы также выпустили версию модели с интерфейсом для нескольких языков, чтобы улучшить сравнение моделей в разных языковых средах. Для расширения возможностей сравнения, мы выпустили не только модели, но и их интерфейсы для разных языков, чтобы повысить эффективность и прозрачность сравнения.
#### Результаты
Проведенные эксперименты показали, что модели open-sci-ref-0.01 позволяют сравнить результаты разных моделей и дают прозрачные стандарты для выгодного сравнения. Мы проанализировали несколько датасетов и продемонстрировали, что **NemoTron-CC HQ** показал лучший результат, после которого следуют **DCLM-baseline** и **FineWeb-Edu**. Мы также выпустили код и логи, чтобы другие исследователи могли проверить и продолжить развитие наших результатов.
#### Значимость
Открытые модели open-sci-ref-0.01 могут помочь улучшить стандарты сравнения новых моделей и дать базу для последующих исследований. Мы демонстрируем, что модели могут быть более эффективны и открытыми, что может привести к повышению доверия к результатам. Эти модели могут быть применены в различных областях, где требуется сравнение моделей, например, в медицине, образовании и других сферах.
#### Выводы
Мы установили стандартные модели, которые могут служить основой для сравнения других моделей и давать прозрачный подход к их сравнению. Наши решения помогают выявить ошибки в разработке моделей и создать прозрачные стандарты для дальнейших экспериментов. Мы направляемся на дальнейшее улучшение и расширение этой модели, чтобы сделать исследования в области глубокого обучения более открытыми и доступными.
Abstract
We introduce open-sci-ref, a family of dense transformer models trained as
research baselines across multiple model (0.13B to 1.7B parameters) and token
scales (up to 1T) on 8 recent open reference datasets. Evaluating the models on
various standardized benchmarks, our training runs set establishes reference
points that enable researchers to assess the sanity and quality of alternative
training approaches across scales and datasets. Intermediate checkpoints allow
comparison and studying of the training dynamics. The established reference
baselines allow training procedures to be compared through their scaling
trends, aligning them on a common compute axis. Comparison of open reference
datasets reveals that training on NemoTron-CC HQ consistently outperforms other
reference datasets, followed by DCLM-baseline and FineWeb-Edu. In addition to
intermediate training checkpoints, the release includes logs, code, and
downstream evaluations to simplify reproduction, standardize comparison, and
facilitate future research.
Ссылки и действия
Дополнительные ресурсы: