NeMo: A Neuron-Level Modularizing-While-Training Approach for Decomposing DNN Models

2508.11348v1 cs.LG, cs.AI 2025-08-19
Авторы:

Xiaohan Bi, Binhang Qi, Hailong Sun, Xiang Gao, Yue Yu, Xiaojun Liang

Резюме на русском

## Контекст С Deep Neural Networks (DNN) вошедшими в большинство современных систем, их создание становится все дороже. Одним из решений является модельное модулирование, позволяющее переиспытывать модули DNN, тогда как интерпретация всей модели может быть дорогостоящей. Направление "модулирование во время тренировки" (MwT) позволяет упростить модели, но существующие методы ограничены малыми CNN-моделями и не справляются с трансформерами и большими сетями. Наша работа — NeMo — предлагает новый подход с модулированием по уровню нейрона, обеспечивая широкую применимость. ## Метод NeMo работает на уровне нейрона, центральном для всех DNN. Мы предлагаем относительно-сравнительное обучение для модулей, строимых во время тренировки. Наша стратегия основывается на композитном функционале ошибки, который подстраивается под различные DNN-архитектуры. Чтобы обеспечить масштабируемость, мы использовали адаптивные методы уменьшения размера модулей. Это позволяет NeMo легко применяться к CNN-моделям и большим Transformer-моделям. Модель архитектурно гибкая и эффективна в обработке различных данных. ## Результаты Мы провели ряд экспериментов на двух Transformer-моделях и четырёх CNN-моделях, использовав два датасета классификации. Наши результаты показали, что NeMo улучшает точность модуляции на среднем 1.72% и снижает размер модулей на среднем 58.10% по сравнению с состоянием технологии. Это продемонстрировано как на CNN, так и на трансформерах. Также мы провели случайную стадию в реальных проектах, показав, что NeMo может быть применен для усовершенствования модулирования в задачах машинного обучения. ## Значимость NeMo может применяться в различных областях, где требуется эффективное моделирование, например, в больших моделях текста, обработке изображений и других. Он позволяет экономить ресурсы на тренировке и интерпретации, повышая масштабируемость и общую эффективность. Этот подход может стать ключевым для будущих исследований в области моделей DNN. ## Выводы Мы представили NeMo, новый подход к моделированию DNN на уровне нейрона. Наши эксперименты показали его превосходство по сравнению с другими методами, особенно на больших трансформерах. В будущем мы планируем расширить модель, чтобы она могла применяться к другим типам моделей и задачам. NeMo может стать ключевым шагом в глубоком обучении.

Abstract

With the growing incorporation of deep neural network (DNN) models into modern software systems, the prohibitive construction costs have become a significant challenge. Model reuse has been widely applied to reduce training costs, but indiscriminately reusing entire models may incur significant inference overhead. Consequently, DNN modularization has gained attention, enabling module reuse by decomposing DNN models. The emerging modularizing-while-training (MwT) paradigm, which incorporates modularization into training, outperforms modularizing-after-training approaches. However, existing MwT methods focus on small-scale CNN models at the convolutional kernel level and struggle with diverse DNNs and large-scale models, particularly Transformer-based models. To address these limitations, we propose NeMo, a scalable and generalizable MwT approach. NeMo operates at the neuron level fundamental component common to all DNNs-ensuring applicability to Transformers and various architectures. We design a contrastive learning-based modular training method with an effective composite loss function, enabling scalability to large-scale models. Comprehensive experiments on two Transformer-based models and four CNN models across two classification datasets demonstrate NeMo's superiority over state-of-the-art MwT methods. Results show average gains of 1.72% in module classification accuracy and 58.10% reduction in module size, demonstrating efficacy across both CNN and large-scale Transformer-based models. A case study on open-source projects shows NeMo's potential benefits in practical scenarios, offering a promising approach for scalable and generalizable DNN modularization.

Ссылки и действия