Expanding Foundational Language Capabilities in Open-Source LLMs through a Korean Case Study

2509.03972v1 cs.CL, cs.AI, cs.LG 2025-09-06

Авторы:

Junghwan Lim, Gangwon Jo, Sungmin Lee, Jiyoung Park, Dongseok Kim, Jihwan Kim, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Kibong Choi, Jaeyeon Huh, Beomgyu Kim, Jangwoong Kim, Taehyun Kim, Haesol Lee, Jeesoo Lee, Dongpin Oh, Changseok Song, Daewon Suh

Резюме на русском

## Контекст В последние годы рост искусственных нейронных сетей, особенно языковых моделей (LLMs), достиг новых высот. Однако, несмотря на их успех, существуют значительные трудности при адаптации таких моделей к языкам, отличающимся синтаксическими и лексикографическими особенностями. Корейский язык, своими уникальными характеристиками, представляет сложности для обучения моделей, отсутствующих специальной архитектуры и данных. Это приводит к узкому спектру применения языковых моделей в корейском контексте, ограничивая их эффективность. Llama-3-Motif — это языковая модель, разработанная для улучшения производительности на корейском языке, при этом сохраняя высокую эффективность на английском. Наша модель основывается на Llama 3, но включает усовершенствованные методы обучения и специально подобранные данные для расширения функциональности модели на корейском языке. ## Метод Llama-3-Motif основывается на Llama 3, но имеет специальные приемлеты для работы с корейским языком. Это реализовано через **LlamaPro** и **Masked Structure Growth**, которые позволяют масштабировать модель без изменения основной архитектуры Transformer. Мы использовали MoAI-platform для эффективного обучения на высокомасштабных GPU-кластерах. Для обучения включена сбалансированная комбинация корейских и английских данных, чтобы сделать модель более универсальной. Этот подход позволяет Llama-3-Motif оптимизироваться для корейского языка, при этом сохраняя высокую производительность на английском. ## Результаты Мы проводили эксперименты, используя широкий набор корейских и английских тестов, включая корейские специфические бенчмарки. Результаты показали, что Llama-3-Motif превосходит существующие модели, достигая результатов, которые приближаются к GPT-4. На корейских тестах, Llama-3-Motif отличается значительным улучшением в сравнении с другими моделями, особенно в задачах понимания языка и вывода. Эти результаты указывают на успешное расширение функциональности модели для корейского языка без потери производительности на английском. ## Значимость Llama-3-Motif может применяться в различных областях, включая трансляцию, анализ документов на корейском языке, обучение и развитие новых моделей. Основное преимущество заключается в усовершенствовании производительности для корейского языка, что открывает новые возможности для использования в региональных приложениях. Эта модель может стать ключевым инструментом для развития ИИ на корейском языке, повышая эффективность в различных сферах бизнеса и образования. ## Выводы Результаты Llama-3-Motif

Abstract

We introduce Llama-3-Motif, a language model consisting of 102 billion parameters, specifically designed to enhance Korean capabilities while retaining strong performance in English. Developed on the Llama 3 architecture, Llama-3-Motif employs advanced training techniques, including LlamaPro and Masked Structure Growth, to effectively scale the model without altering its core Transformer architecture. Using the MoAI platform for efficient training across hyperscale GPU clusters, we optimized Llama-3-Motif using a carefully curated dataset that maintains a balanced ratio of Korean and English data. Llama-3-Motif shows decent performance on Korean-specific benchmarks, outperforming existing models and achieving results comparable to GPT-4.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Expanding Foundational Language Capabilities in Open-Source LLMs through a Korean Case Study

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация