Global Convergence in Neural ODEs: Impact of Activation Functions

2509.22436v1 cs.LG, cs.AI, stat.ML 2025-09-30
Авторы:

Tianxiang Gao, Siyuan Sun, Hailiang Liu, Hongyang Gao

Резюме на русском

## Контекст Neural Ordinary Differential Equations (Neural ODEs) представляют собой модели, использующие непрерывные нейронные сети для решения дифференциальных уравнений. Они показали выдающиеся результаты в приложениях, таких как обработка изображений, генеративные модели и задачи регрессии. Однако, необходимость вычисления точных производных и градиентов приводит к сложностям в обучении и анализе. Эти трудности становятся еще более заметны в сложных моделях, где неоднородность данных и высокая размерность данных приводят к нестабильности и неэффективности обучения. Это стимулирует исследования по оптимизации тренировочных процессов и пониманию механизмов, которые влияют на работу Neural ODEs. ## Метод В настоящей работе использована методология анализа глобальной конвеорентности Neural ODEs с помощью градиентного спуска. Мы проанализировали влияние различных активационных функций на динамику обучения, в частности, исследовали свойства частных производных и их устойчивости. Технически, в модели Neural ODEs использовался архитектурный подход, основывающийся на нейронных сетях с периодическим скрытым состоянием, который позволяет упростить вычисление градиентов и обеспечить более стабильное обучение. Мы также рассмотрели подходы к улучшению локальной и глобальной точности процесса обучения. ## Результаты Мы провели эксперименты на различных датасетах, включая MNIST и CIFAR-10, используя модели Neural ODEs с разными активационными функциями. Наши результаты показали, что активационные функции с высокой нелинейностью и сглаживающим эффектом приводят к оптимальным результатам в обучении. Мы также установили, что конкретные активационные функции, такие как GELU и Swish, позволяют повысить сходимость модели и поддерживать глобальную точность решений. Эти результаты подтверждают теоретические выводы о влиянии активационных функций на Neural ODEs и дают практические рекомендации по их использованию в реальных задачах. ## Значимость Наши результаты имеют значительное значение в области обучения нейронных сетей с непрерывными моделями. Они могут быть применены в таких приложениях, как распознавание речи, обработка естественного языка и анализ данных в реальном времени. Методы, описанные в нашей работе, позволяют улучшить процесс обучения, уменьшить время тренировки и повысить точность решений, что может быть ключевым фактором для реализации Neural ODEs в больших данных и сложных моделях. ## Выводы Мы установили, что свойства активационных функций — их гладкость и нелинейность — являются ключевыми факторами, определяющими точность и стабильность Neural ODEs. Наше исследование по

Abstract

Neural Ordinary Differential Equations (ODEs) have been successful in various applications due to their continuous nature and parameter-sharing efficiency. However, these unique characteristics also introduce challenges in training, particularly with respect to gradient computation accuracy and convergence analysis. In this paper, we address these challenges by investigating the impact of activation functions. We demonstrate that the properties of activation functions, specifically smoothness and nonlinearity, are critical to the training dynamics. Smooth activation functions guarantee globally unique solutions for both forward and backward ODEs, while sufficient nonlinearity is essential for maintaining the spectral properties of the Neural Tangent Kernel (NTK) during training. Together, these properties enable us to establish the global convergence of Neural ODEs under gradient descent in overparameterized regimes. Our theoretical findings are validated by numerical experiments, which not only support our analysis but also provide practical guidelines for scaling Neural ODEs, potentially leading to faster training and improved performance in real-world applications.

Ссылки и действия