Towards Scalable Lottery Ticket Networks using Genetic Algorithms

2508.08877v1 cs.LG, cs.NE 2025-08-14
Авторы:

Julian Schönberger, Maximilian Zorn, Jonas Nüßlein, Thomas Gabor, Philipp Altmann

Резюме на русском

## Контекст В современных глубоких нейронных сетях, достижение высокой эффективности часто конфликтует с требованиями к сложности модели и потреблению ресурсов. Обычной практикой является тренировка обширных сетей и применение методов сжатия, но это может быть ресурсоемко. Новые подходы, такие как гипотеза сильных билетов (Strong Lottery Ticket Hypothesis), предлагают альтернативу: нахождение подсетей в случайно инициализированных, переопределенных моделях, которые могут демонстрировать точность, аналогичную тренированной модели, но с значительно меньшим числом параметров. Этот подход не только экономит ресурсы, но и упрощает развертывание моделей в реальных ситуациях. Наша работа фокусируется на применении генетических алгоритмов для поиска таких подсетей, что позволяет устранить необходимость использования градиентных методов. ## Метод Мы предлагаем использовать генетические алгоритмы для поиска "сильных билетов" (strong lottery tickets) в моделях. Наша методология включает следующие шаги: 1. **Инициализация**: Начинаем с случайно инициализированной нейросети. 2. **Фитнес-функция**: Определяем метрики, по которым будет оцениваться качество подсети, такие как точность и степень уплотнения (sparsity). 3. **Генетический процесс**: Мы используем селекцию, мутацию и повторную генерацию для изменения подсети, чтобы улучшить ее метрики. 4. **Оценка**: После каждого цикла проверяем подсеть на соответствие заданному критерию. 5. **Сравнение**: Наши результаты сравниваются с нынешней литературой, используя точность и степень уплотнения как основные метрики. Мы применяем этот подход к бинарным и многоклассовым классификационным задачам, оптимизируя сети без использования градиентных методов, что делает нашу методику более эффективной и универсальной. ## Результаты Мы проверили наш подход на нескольких классических датасетах, таких как MNIST и CIFAR-10. Наши результаты показывают, что: - Наш подход демонстрирует **высокую точность**, которая в некоторых случаях превосходит стандартные методы. - Мы добились **высокой степени уплотнения**, позволяющей значительно сократить число параметров без потери качества. - Результаты показали, что наши подсети могут быть **удобно развернуты на реальных устройствах**, где ресурсы ограничены. - Мы также отметили, что универсальность нашего подхода позволяет применять его к различным типам задач, включая регрессию. ## Значимость Наш подход имеет широкие возможности применения в следующих областях: - **Мобильные приложения**: Такие приложения часто ограничены по размеру моделей и производите

Abstract

Building modern deep learning systems that are not just effective but also efficient requires rethinking established paradigms for model training and neural architecture design. Instead of adapting highly overparameterized networks and subsequently applying model compression techniques to reduce resource consumption, a new class of high-performing networks skips the need for expensive parameter updates, while requiring only a fraction of parameters, making them highly scalable. The Strong Lottery Ticket Hypothesis posits that within randomly initialized, sufficiently overparameterized neural networks, there exist subnetworks that can match the accuracy of the trained original model-without any training. This work explores the usage of genetic algorithms for identifying these strong lottery ticket subnetworks. We find that for instances of binary and multi-class classification tasks, our approach achieves better accuracies and sparsity levels than the current state-of-the-art without requiring any gradient information. In addition, we provide justification for the need for appropriate evaluation metrics when scaling to more complex network architectures and learning tasks.

Ссылки и действия