Expanding Foundational Language Capabilities in Open-Source LLMs through a Korean Case Study
2509.03972v1
cs.CL, cs.AI, cs.LG
2025-09-06
Авторы:
Junghwan Lim, Gangwon Jo, Sungmin Lee, Jiyoung Park, Dongseok Kim, Jihwan Kim, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Kibong Choi, Jaeyeon Huh, Beomgyu Kim, Jangwoong Kim, Taehyun Kim, Haesol Lee, Jeesoo Lee, Dongpin Oh, Changseok Song, Daewon Suh
Резюме на русском
## Контекст
В последние годы рост искусственных нейронных сетей, особенно языковых моделей (LLMs), достиг новых высот. Однако, несмотря на их успех, существуют значительные трудности при адаптации таких моделей к языкам, отличающимся синтаксическими и лексикографическими особенностями. Корейский язык, своими уникальными характеристиками, представляет сложности для обучения моделей, отсутствующих специальной архитектуры и данных. Это приводит к узкому спектру применения языковых моделей в корейском контексте, ограничивая их эффективность.
Llama-3-Motif — это языковая модель, разработанная для улучшения производительности на корейском языке, при этом сохраняя высокую эффективность на английском. Наша модель основывается на Llama 3, но включает усовершенствованные методы обучения и специально подобранные данные для расширения функциональности модели на корейском языке.
## Метод
Llama-3-Motif основывается на Llama 3, но имеет специальные приемлеты для работы с корейским языком. Это реализовано через **LlamaPro** и **Masked Structure Growth**, которые позволяют масштабировать модель без изменения основной архитектуры Transformer. Мы использовали MoAI-platform для эффективного обучения на высокомасштабных GPU-кластерах. Для обучения включена сбалансированная комбинация корейских и английских данных, чтобы сделать модель более универсальной. Этот подход позволяет Llama-3-Motif оптимизироваться для корейского языка, при этом сохраняя высокую производительность на английском.
## Результаты
Мы проводили эксперименты, используя широкий набор корейских и английских тестов, включая корейские специфические бенчмарки. Результаты показали, что Llama-3-Motif превосходит существующие модели, достигая результатов, которые приближаются к GPT-4. На корейских тестах, Llama-3-Motif отличается значительным улучшением в сравнении с другими моделями, особенно в задачах понимания языка и вывода. Эти результаты указывают на успешное расширение функциональности модели для корейского языка без потери производительности на английском.
## Значимость
Llama-3-Motif может применяться в различных областях, включая трансляцию, анализ документов на корейском языке, обучение и развитие новых моделей. Основное преимущество заключается в усовершенствовании производительности для корейского языка, что открывает новые возможности для использования в региональных приложениях. Эта модель может стать ключевым инструментом для развития ИИ на корейском языке, повышая эффективность в различных сферах бизнеса и образования.
## Выводы
Результаты Llama-3-Motif
Abstract
We introduce Llama-3-Motif, a language model consisting of 102 billion
parameters, specifically designed to enhance Korean capabilities while
retaining strong performance in English. Developed on the Llama 3 architecture,
Llama-3-Motif employs advanced training techniques, including LlamaPro and
Masked Structure Growth, to effectively scale the model without altering its
core Transformer architecture. Using the MoAI platform for efficient training
across hyperscale GPU clusters, we optimized Llama-3-Motif using a carefully
curated dataset that maintains a balanced ratio of Korean and English data.
Llama-3-Motif shows decent performance on Korean-specific benchmarks,
outperforming existing models and achieving results comparable to GPT-4.
Ссылки и действия
Дополнительные ресурсы: