NeMo: A Neuron-Level Modularizing-While-Training Approach for Decomposing DNN Models
2508.11348v1
cs.LG, cs.AI
2025-08-19
Авторы:
Xiaohan Bi, Binhang Qi, Hailong Sun, Xiang Gao, Yue Yu, Xiaojun Liang
Резюме на русском
## Контекст
С Deep Neural Networks (DNN) вошедшими в большинство современных систем, их создание становится все дороже. Одним из решений является модельное модулирование, позволяющее переиспытывать модули DNN, тогда как интерпретация всей модели может быть дорогостоящей. Направление "модулирование во время тренировки" (MwT) позволяет упростить модели, но существующие методы ограничены малыми CNN-моделями и не справляются с трансформерами и большими сетями. Наша работа — NeMo — предлагает новый подход с модулированием по уровню нейрона, обеспечивая широкую применимость.
## Метод
NeMo работает на уровне нейрона, центральном для всех DNN. Мы предлагаем относительно-сравнительное обучение для модулей, строимых во время тренировки. Наша стратегия основывается на композитном функционале ошибки, который подстраивается под различные DNN-архитектуры. Чтобы обеспечить масштабируемость, мы использовали адаптивные методы уменьшения размера модулей. Это позволяет NeMo легко применяться к CNN-моделям и большим Transformer-моделям. Модель архитектурно гибкая и эффективна в обработке различных данных.
## Результаты
Мы провели ряд экспериментов на двух Transformer-моделях и четырёх CNN-моделях, использовав два датасета классификации. Наши результаты показали, что NeMo улучшает точность модуляции на среднем 1.72% и снижает размер модулей на среднем 58.10% по сравнению с состоянием технологии. Это продемонстрировано как на CNN, так и на трансформерах. Также мы провели случайную стадию в реальных проектах, показав, что NeMo может быть применен для усовершенствования модулирования в задачах машинного обучения.
## Значимость
NeMo может применяться в различных областях, где требуется эффективное моделирование, например, в больших моделях текста, обработке изображений и других. Он позволяет экономить ресурсы на тренировке и интерпретации, повышая масштабируемость и общую эффективность. Этот подход может стать ключевым для будущих исследований в области моделей DNN.
## Выводы
Мы представили NeMo, новый подход к моделированию DNN на уровне нейрона. Наши эксперименты показали его превосходство по сравнению с другими методами, особенно на больших трансформерах. В будущем мы планируем расширить модель, чтобы она могла применяться к другим типам моделей и задачам. NeMo может стать ключевым шагом в глубоком обучении.
Abstract
With the growing incorporation of deep neural network (DNN) models into
modern software systems, the prohibitive construction costs have become a
significant challenge. Model reuse has been widely applied to reduce training
costs, but indiscriminately reusing entire models may incur significant
inference overhead. Consequently, DNN modularization has gained attention,
enabling module reuse by decomposing DNN models. The emerging
modularizing-while-training (MwT) paradigm, which incorporates modularization
into training, outperforms modularizing-after-training approaches. However,
existing MwT methods focus on small-scale CNN models at the convolutional
kernel level and struggle with diverse DNNs and large-scale models,
particularly Transformer-based models. To address these limitations, we propose
NeMo, a scalable and generalizable MwT approach. NeMo operates at the neuron
level fundamental component common to all DNNs-ensuring applicability to
Transformers and various architectures. We design a contrastive learning-based
modular training method with an effective composite loss function, enabling
scalability to large-scale models. Comprehensive experiments on two
Transformer-based models and four CNN models across two classification datasets
demonstrate NeMo's superiority over state-of-the-art MwT methods. Results show
average gains of 1.72% in module classification accuracy and 58.10% reduction
in module size, demonstrating efficacy across both CNN and large-scale
Transformer-based models. A case study on open-source projects shows NeMo's
potential benefits in practical scenarios, offering a promising approach for
scalable and generalizable DNN modularization.
Ссылки и действия
Дополнительные ресурсы: