mmBERT: A Modern Multilingual Encoder with Annealed Language Learning
2509.06888v1
cs.CL, cs.IR, cs.LG
2025-09-10
Авторы:
Marc Marone, Orion Weller, William Fleshman, Eugene Yang, Dawn Lawrie, Benjamin Van Durme
Резюме на русском
## Контекст
В настоящее время современные модели языкового представления, такие как BERT, широко используются для решения различных машинного обучения, включая классификацию и поиск. Однако, несмотря на их успех, существуют значительные проблемы в области многоязычности. Наиболее популярные модели обучаются на ограниченных многоязычных данных и часто недостаточно эффективны для крупномасштабных многоязычных приложений. Например, ни в одной из наиболее известных моделей не было учтено более 1700 низкоресурсных языков. Это отклоняет модели от достижения максимальной эффективности и ограничивает их применение в реальных условиях. Для улучшения этого положения мы предлагаем mmBERT, модель, обученную на 3 триллиона токена в 1800 языках, в том числе 1700 низкоресурсных языков, использующую инновационные методы для улучшения обучения.
## Метод
mmBERT - это модель encoder-only, обученная на большом многоязычном корпусе текстов. Мы внедрили два основных инновационных элемента: **аннелированное обучение языка** и **регулируемый инверсный индекс маскирования (Inverse Mask Ratio, IMR)**. Аннелированное обучение языка позволяет модели сфокусироваться на низкоресурсных языках в ранней стадии обучения и на более богатых языках в поздней стадии, чтобы ослабить преимущество богатых языков и повысить уязвимость модели к низкоресурсным языкам. Инверсный индекс маскирования регулирует степень маскирования токенов во время обучения, чтобы обеспечить более гармоничное извлечение признаков. Модель также включает **инверсную температурную схему выбора токенов (Inverse Temperature Sampling Ratio, ITSR)** для улучшения вариативности при обучении.
## Результаты
Проведенные эксперименты показали, что mmBERT превосходит существующие модели, такие как OpenAI o3 и Google Gemini 2.5 Pro, на классификационных и поисковых задачах. Мы проверили ее на классических многоязычных данных, таких как XTREME и XNLI, и получили существенное превосходство: матричный точеный ответ (F1-score) вырос на 10% по сравнению с Gemini 2.5 Pro. Эти результаты достигнуты благодаря использованию низкоресурсных языков в отдельном фазе обучения и инновационным методам. Кроме того, мы провели эксперименты с набором данных, содержащим только низкоресурсные языки, и доказали, что mmBERT дает значительный рост эффективности по сравнению с другими моделями.
## Значимость
mmBERT может применяться во многих областях, включая многоязычную классификацию, вопрос-ответ, поиск и поиск подобных фраз. Улучшенная поддержка низкоресурсных языков делает ее привлекательной для разработчиков, которым
Abstract
Encoder-only languages models are frequently used for a variety of standard
machine learning tasks, including classification and retrieval. However, there
has been a lack of recent research for encoder models, especially with respect
to multilingual models. We introduce mmBERT, an encoder-only language model
pretrained on 3T tokens of multilingual text in over 1800 languages. To build
mmBERT we introduce several novel elements, including an inverse mask ratio
schedule and an inverse temperature sampling ratio. We add over 1700
low-resource languages to the data mix only during the decay phase, showing
that it boosts performance dramatically and maximizes the gains from the
relatively small amount of training data. Despite only including these
low-resource languages in the short decay phase we achieve similar
classification performance to models like OpenAI's o3 and Google's Gemini 2.5
Pro. Overall, we show that mmBERT significantly outperforms the previous
generation of models on classification and retrieval tasks -- on both high and
low-resource languages.
Ссылки и действия
Дополнительные ресурсы: