Generalizing Scaling Laws for Dense and Sparse Large Language Models
2508.06617v1
cs.LG, cs.AI, cs.PF
2025-08-13
Авторы:
Md Arafat Hossain, Xingfu Wu, Valerie Taylor, Ali Jannesari
Резюме на русском
## Контекст
Одним из основных направлений развития искусственного интеллекта является развитие больших языковых моделей (LLM). Эти модели показали эффективность в решении различных задач, но их развитие связано с высокими затратами на обучение и использование. Размер языковых моделей постоянно растет, что приводит к увеличению вычислительных затрат. Это привело к появлению многочисленных усилий, направленных на оптимизацию процесса обучения и вычислительной эффективности. Одна из основных проблем заключается в том, что многие из текущих подходов к определению "масштабируемости" языковых моделей ограничены архитектурой (либо густая, либо разряженная). Эта работа адресует эту проблему, предлагая новую, универсальную модель масштабируемости, которая может быть применена как к густым, так и к разряженным LLM.
## Метод
Мы предлагаем новую модель масштабируемости, которая учитывает особенности обучения густых и разряженных языковых моделей. Модель основывается на анализе существующих экспериментов и статистических моделей, оптимизируя параметры, такие как число слоев, число заголовков, число нейронов в каждом слое, и др. Она использует градиентный спуск для оптимизации и включает методы стохастического градиента, что позволяет ей быть более точной и надёжной. Мы также используем большой набор данных, включающий данные об обучении и тестировании для обучения нашей модели.
## Результаты
Мы провели многочисленные эксперименты с различными типами языковых моделей, включая густые и разряженные, чтобы проверить эффективность нашей модели масштабируемости. Мы сравнили полученные результаты с текущими лучшими решениями и показали, что наш подход даёт более точные и надёжные прогнозы в сравнении с существующими методами. Кроме того, наши эксперименты показали, что наша модель может быть использована для эффективного распределения ресурсов при обучении языковых моделей, что приводит к снижению вычислительных затрат и улучшению качества результатов.
## Значимость
Мы предлагаем новую общей модель масштабируемости, которая может быть применена также к густым, так и к разряженным языковым моделям, что упрощает процесс оптимизации и сокращает трудозатраты. Этот подход может быть применен в различных областях, таких как здравоохранение, финансы, производство, и др., где требуется эффективное обучение языковых моделей с ограниченным бюджетом. Наш подход также позволяет уменьшить трудозатраты и повысить точность моделей при их развёртывании в реальном мире.
## Выводы
Мы установили, что наша модель масшта
Abstract
Over the past few years, the size of language models has grown exponentially,
as has the computational cost to train these large models. This rapid growth
has motivated researchers to develop new techniques aimed at enhancing the
efficiency of the training process. Despite these advancements, optimally
predicting the model size or allocating optimal resources remains a challenge.
Several efforts have addressed the challenge by proposing different scaling
laws, but almost all of them are architecture-specific (dense or sparse). In
this work we revisit existing scaling laws and propose a generalized scaling
law to provide a unified framework that is applicable to both dense and sparse
large language models. We evaluate and compare our proposed scaling law with
existing scaling laws to demonstrate its effectiveness.
Ссылки и действия
Дополнительные ресурсы: