PLaMo 2 Technical Report

2509.04897v1 cs.CL, cs.AI, cs.LG 2025-09-09

Авторы:

Preferred Networks, :, Kaizaburo Chubachi, Yasuhiro Fujita, Shinichi Hemmi, Yuta Hirokawa, Toshiki Kataoka, Goro Kobayashi, Kenichi Maehashi, Calvin Metzger, Hiroaki Mikami, Shogo Murai, Daisuke Nishino, Kento Nozawa, Shintarou Okada, Daisuke Okanohara, Shunta Saito, Shotaro Sano, Shuji Suzuki, Daisuke Tanaka, Avinash Ummadisingu, Hanqin Wang, Sixue Wang, Tianqi Xu

Резюме на русском

#### Контекст В последние годы языковые модели становятся все более важной частью области искусственного интеллекта, особенно в сфере обработки и понимания естественных языков. Однако существуют серьезные проблемы, связанные с нехваткой качественных данных для обучения таких моделей, особенно в языках, отличных от английского. Для японского языка этот вопрос является актуальнее, так как доступный ему корпус данных часто ограничен и не позволяет обеспечить масштабируемость и качество многих моделей. Мотивация для создания PLaMo 2 заключается в преодолении этих ограничений, обеспечении высокого качества и эффективности модели для японского языка с помощью инновационных техник обучения и оптимизации. #### Метод PLaMo 2 основывается на гибридной Samba-архитектуре, которая включает в себя этапы непрерывного пре-тренирования для преодоления скрытых состояний и перехода к полноценной аттенции с 32K токенов. Обучение производится на огромных синтетических данных, позволяющих преодолеть нехватку качественных естественных данных. Для эффективности методы структурированного урезания весов и реинтеграции параметров используются для создания моделей с высокой эффективностью ресурсов. Для дальнейшей оптимизации используется цикл постобучения, включающий в себя супервизированное файн-тюнинг, оптимизацию по предпочтениям и методы создания моделей. Высокая производительность достигается благодаря инновационной поддержке инфраструктуры и оптимизации инференса, включая vLLM и кванторизацию. #### Результаты Полученные результаты показывают, что PLaMo 2 достигает состояния артефакта на нескольких японских бенчмарках, превосходя соответствующие модели размера. Модель показывает выдающиеся результаты в области понимания инструкций, языковой повествовательности и японского языка-конкретной знания. Эти достижения достигаются благодаря уникальному подходу к обучению, который использует синтетические данные, высокоэффективное урезание весов и постобучение. Это дает PLaMo 2 преимущества в сравнении с другими моделями с равным количеством параметров. #### Значимость PLaMo 2 имеет широкое применение в области японского языка и обработки естественных языков. Из-за своей эффективности и высокого качества она может быть применена в различных сферах, включая синтез речи, ответы на вопросы, развитие новых технологий для языка, а также в приложениях, требующих высокой скорости инференса. Благодаря использованию синтетических данных модель предоставляет решение для нехватки качеств

Abstract

In this report, we introduce PLaMo 2, a series of Japanese-focused large language models featuring a hybrid Samba-based architecture that transitions to full attention via continual pre-training to support 32K token contexts. Training leverages extensive synthetic corpora to overcome data scarcity, while computational efficiency is achieved through weight reuse and structured pruning. This efficient pruning methodology produces an 8B model that achieves performance comparable to our previous 100B model. Post-training further refines the models using a pipeline of supervised fine-tuning (SFT) and direct preference optimization (DPO), enhanced by synthetic Japanese instruction data and model merging techniques. Optimized for inference using vLLM and quantization with minimal accuracy loss, the PLaMo 2 models achieve state-of-the-art results on Japanese benchmarks, outperforming similarly-sized open models in instruction-following, language fluency, and Japanese-specific knowledge.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

PLaMo 2 Technical Report

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация