Generalizing Scaling Laws for Dense and Sparse Large Language Models

2508.06617v1 cs.LG, cs.AI, cs.PF 2025-08-13

Авторы:

Md Arafat Hossain, Xingfu Wu, Valerie Taylor, Ali Jannesari

Резюме на русском

## Контекст Одним из основных направлений развития искусственного интеллекта является развитие больших языковых моделей (LLM). Эти модели показали эффективность в решении различных задач, но их развитие связано с высокими затратами на обучение и использование. Размер языковых моделей постоянно растет, что приводит к увеличению вычислительных затрат. Это привело к появлению многочисленных усилий, направленных на оптимизацию процесса обучения и вычислительной эффективности. Одна из основных проблем заключается в том, что многие из текущих подходов к определению "масштабируемости" языковых моделей ограничены архитектурой (либо густая, либо разряженная). Эта работа адресует эту проблему, предлагая новую, универсальную модель масштабируемости, которая может быть применена как к густым, так и к разряженным LLM. ## Метод Мы предлагаем новую модель масштабируемости, которая учитывает особенности обучения густых и разряженных языковых моделей. Модель основывается на анализе существующих экспериментов и статистических моделей, оптимизируя параметры, такие как число слоев, число заголовков, число нейронов в каждом слое, и др. Она использует градиентный спуск для оптимизации и включает методы стохастического градиента, что позволяет ей быть более точной и надёжной. Мы также используем большой набор данных, включающий данные об обучении и тестировании для обучения нашей модели. ## Результаты Мы провели многочисленные эксперименты с различными типами языковых моделей, включая густые и разряженные, чтобы проверить эффективность нашей модели масштабируемости. Мы сравнили полученные результаты с текущими лучшими решениями и показали, что наш подход даёт более точные и надёжные прогнозы в сравнении с существующими методами. Кроме того, наши эксперименты показали, что наша модель может быть использована для эффективного распределения ресурсов при обучении языковых моделей, что приводит к снижению вычислительных затрат и улучшению качества результатов. ## Значимость Мы предлагаем новую общей модель масштабируемости, которая может быть применена также к густым, так и к разряженным языковым моделям, что упрощает процесс оптимизации и сокращает трудозатраты. Этот подход может быть применен в различных областях, таких как здравоохранение, финансы, производство, и др., где требуется эффективное обучение языковых моделей с ограниченным бюджетом. Наш подход также позволяет уменьшить трудозатраты и повысить точность моделей при их развёртывании в реальном мире. ## Выводы Мы установили, что наша модель масшта

Abstract

Over the past few years, the size of language models has grown exponentially, as has the computational cost to train these large models. This rapid growth has motivated researchers to develop new techniques aimed at enhancing the efficiency of the training process. Despite these advancements, optimally predicting the model size or allocating optimal resources remains a challenge. Several efforts have addressed the challenge by proposing different scaling laws, but almost all of them are architecture-specific (dense or sparse). In this work we revisit existing scaling laws and propose a generalized scaling law to provide a unified framework that is applicable to both dense and sparse large language models. We evaluate and compare our proposed scaling law with existing scaling laws to demonstrate its effectiveness.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Generalizing Scaling Laws for Dense and Sparse Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FlashOmni: A Unified Sparse Attention Engine for Diffusion Transformers

PATCH: Learnable Tile-level Hybrid Sparsity for LLMs

Estudio de la eficiencia en la escalabilidad de GPUs para el entrenamiento de In...

Навигация