Towards Scalable Lottery Ticket Networks using Genetic Algorithms
2508.08877v1
cs.LG, cs.NE
2025-08-14
Авторы:
Julian Schönberger, Maximilian Zorn, Jonas Nüßlein, Thomas Gabor, Philipp Altmann
Резюме на русском
## Контекст
В современных глубоких нейронных сетях, достижение высокой эффективности часто конфликтует с требованиями к сложности модели и потреблению ресурсов. Обычной практикой является тренировка обширных сетей и применение методов сжатия, но это может быть ресурсоемко. Новые подходы, такие как гипотеза сильных билетов (Strong Lottery Ticket Hypothesis), предлагают альтернативу: нахождение подсетей в случайно инициализированных, переопределенных моделях, которые могут демонстрировать точность, аналогичную тренированной модели, но с значительно меньшим числом параметров. Этот подход не только экономит ресурсы, но и упрощает развертывание моделей в реальных ситуациях. Наша работа фокусируется на применении генетических алгоритмов для поиска таких подсетей, что позволяет устранить необходимость использования градиентных методов.
## Метод
Мы предлагаем использовать генетические алгоритмы для поиска "сильных билетов" (strong lottery tickets) в моделях. Наша методология включает следующие шаги:
1. **Инициализация**: Начинаем с случайно инициализированной нейросети.
2. **Фитнес-функция**: Определяем метрики, по которым будет оцениваться качество подсети, такие как точность и степень уплотнения (sparsity).
3. **Генетический процесс**: Мы используем селекцию, мутацию и повторную генерацию для изменения подсети, чтобы улучшить ее метрики.
4. **Оценка**: После каждого цикла проверяем подсеть на соответствие заданному критерию.
5. **Сравнение**: Наши результаты сравниваются с нынешней литературой, используя точность и степень уплотнения как основные метрики.
Мы применяем этот подход к бинарным и многоклассовым классификационным задачам, оптимизируя сети без использования градиентных методов, что делает нашу методику более эффективной и универсальной.
## Результаты
Мы проверили наш подход на нескольких классических датасетах, таких как MNIST и CIFAR-10. Наши результаты показывают, что:
- Наш подход демонстрирует **высокую точность**, которая в некоторых случаях превосходит стандартные методы.
- Мы добились **высокой степени уплотнения**, позволяющей значительно сократить число параметров без потери качества.
- Результаты показали, что наши подсети могут быть **удобно развернуты на реальных устройствах**, где ресурсы ограничены.
- Мы также отметили, что универсальность нашего подхода позволяет применять его к различным типам задач, включая регрессию.
## Значимость
Наш подход имеет широкие возможности применения в следующих областях:
- **Мобильные приложения**: Такие приложения часто ограничены по размеру моделей и производите
Abstract
Building modern deep learning systems that are not just effective but also
efficient requires rethinking established paradigms for model training and
neural architecture design. Instead of adapting highly overparameterized
networks and subsequently applying model compression techniques to reduce
resource consumption, a new class of high-performing networks skips the need
for expensive parameter updates, while requiring only a fraction of parameters,
making them highly scalable. The Strong Lottery Ticket Hypothesis posits that
within randomly initialized, sufficiently overparameterized neural networks,
there exist subnetworks that can match the accuracy of the trained original
model-without any training. This work explores the usage of genetic algorithms
for identifying these strong lottery ticket subnetworks. We find that for
instances of binary and multi-class classification tasks, our approach achieves
better accuracies and sparsity levels than the current state-of-the-art without
requiring any gradient information. In addition, we provide justification for
the need for appropriate evaluation metrics when scaling to more complex
network architectures and learning tasks.
Ссылки и действия
Дополнительные ресурсы: