mmBERT: A Modern Multilingual Encoder with Annealed Language Learning

2509.06888v1 cs.CL, cs.IR, cs.LG 2025-09-10

Авторы:

Marc Marone, Orion Weller, William Fleshman, Eugene Yang, Dawn Lawrie, Benjamin Van Durme

Резюме на русском

## Контекст В настоящее время современные модели языкового представления, такие как BERT, широко используются для решения различных машинного обучения, включая классификацию и поиск. Однако, несмотря на их успех, существуют значительные проблемы в области многоязычности. Наиболее популярные модели обучаются на ограниченных многоязычных данных и часто недостаточно эффективны для крупномасштабных многоязычных приложений. Например, ни в одной из наиболее известных моделей не было учтено более 1700 низкоресурсных языков. Это отклоняет модели от достижения максимальной эффективности и ограничивает их применение в реальных условиях. Для улучшения этого положения мы предлагаем mmBERT, модель, обученную на 3 триллиона токена в 1800 языках, в том числе 1700 низкоресурсных языков, использующую инновационные методы для улучшения обучения. ## Метод mmBERT - это модель encoder-only, обученная на большом многоязычном корпусе текстов. Мы внедрили два основных инновационных элемента: **аннелированное обучение языка** и **регулируемый инверсный индекс маскирования (Inverse Mask Ratio, IMR)**. Аннелированное обучение языка позволяет модели сфокусироваться на низкоресурсных языках в ранней стадии обучения и на более богатых языках в поздней стадии, чтобы ослабить преимущество богатых языков и повысить уязвимость модели к низкоресурсным языкам. Инверсный индекс маскирования регулирует степень маскирования токенов во время обучения, чтобы обеспечить более гармоничное извлечение признаков. Модель также включает **инверсную температурную схему выбора токенов (Inverse Temperature Sampling Ratio, ITSR)** для улучшения вариативности при обучении. ## Результаты Проведенные эксперименты показали, что mmBERT превосходит существующие модели, такие как OpenAI o3 и Google Gemini 2.5 Pro, на классификационных и поисковых задачах. Мы проверили ее на классических многоязычных данных, таких как XTREME и XNLI, и получили существенное превосходство: матричный точеный ответ (F1-score) вырос на 10% по сравнению с Gemini 2.5 Pro. Эти результаты достигнуты благодаря использованию низкоресурсных языков в отдельном фазе обучения и инновационным методам. Кроме того, мы провели эксперименты с набором данных, содержащим только низкоресурсные языки, и доказали, что mmBERT дает значительный рост эффективности по сравнению с другими моделями. ## Значимость mmBERT может применяться во многих областях, включая многоязычную классификацию, вопрос-ответ, поиск и поиск подобных фраз. Улучшенная поддержка низкоресурсных языков делает ее привлекательной для разработчиков, которым

Abstract

Encoder-only languages models are frequently used for a variety of standard machine learning tasks, including classification and retrieval. However, there has been a lack of recent research for encoder models, especially with respect to multilingual models. We introduce mmBERT, an encoder-only language model pretrained on 3T tokens of multilingual text in over 1800 languages. To build mmBERT we introduce several novel elements, including an inverse mask ratio schedule and an inverse temperature sampling ratio. We add over 1700 low-resource languages to the data mix only during the decay phase, showing that it boosts performance dramatically and maximizes the gains from the relatively small amount of training data. Despite only including these low-resource languages in the short decay phase we achieve similar classification performance to models like OpenAI's o3 and Google's Gemini 2.5 Pro. Overall, we show that mmBERT significantly outperforms the previous generation of models on classification and retrieval tasks -- on both high and low-resource languages.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

mmBERT: A Modern Multilingual Encoder with Annealed Language Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

When Sufficient is not Enough: Utilizing the Rashomon Effect for Complete Eviden...

AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progres...

PluriHop: Exhaustive, Recall-Sensitive QA over Distractor-Rich Corpora

Are Smaller Open-Weight LLMs Closing the Gap to Proprietary Models for Biomedica...

Mental Multi-class Classification on Social Media: Benchmarking Transformer Arch...

Навигация