Expressive Power of Deep Networks on Manifolds: Simultaneous Approximation

2509.09362v2 math.NA, cs.LG, cs.NA, stat.ML 2025-09-16

Авторы:

Hanfei Zhou, Lei Shi

Резюме на русском

## Контекст В настоящее время в сфере научных вычислений одной из главных проблем является решение частных дифференциальных уравнений (PDEs) на сложных геометрических объектах. Значительная сложность возникает из-за криволинейной геометрии, которая усложняет точное вычисление функций и их производных, требуемых для решения PDEs. Данный аспект требует развития новых методологий и алгоритмов, которые могут эффективно работать в такой среде. Данная статья привносит основу для продвижения теории обучения сетей на нейронных сетях на многообразиях, что является ключевым вопросом в широком спектре приложений, таких как геометрически сложные области, а также в области решения PDEs в таких областях как астрономия, геология и физика. ## Метод В этой работе предлагается новая теория конкурентной аппроксимации для нейросетей на многообразиях. Используется архитектура с глубокими нейросетями, включающих в себя активационную функцию ReLU, которая имеет ограниченные веса. Эта архитектура может аппроксимировать функции в холдер-зыгмундских пространствах и в сфере $\mathcal{W}_p^{k}(\mathcal{M}^d)$. Работа включает в себя определение понятия "необходимого количества сетевых параметров" для точного аппроксимирования функций в указанных пространствах. Также рассматривается схожесть существующих методов с новым подходом, а также анализ эффективности новой архитектуры в случае решения PDEs на криволинейных многообразиях. ## Результаты В ходе исследования установлено, что для аппроксимации функций в пространстве $\mathcal{W}_p^{k}(\mathcal{M}^d)$, где $k \geq 3$ и $s < k$, а также в холдер-зыгмундских пространствах, требуется не более чем $\mathcal{O}(\varepsilon^{-d/(k-s)})$ нейросетевых параметров. Это доказывается также для случая $\mathcal{W}_p^{k}(\mathcal{M}^d)$, где $k \geq 3$. Анализ показывает, что эта структура сети эффективно использует геометрию многообразия, при этом относительно небольшое количество сетевых параметров позволяет решать PDEs на криволинейных объектах с высокой точностью. Также были получены нижние оценки для необходимого количества параметров, показав, что алгоритм почти оптимален. ## Значимость Результаты этого исследования имеют значительное значение в нескольких областях. Они могут быть применены для решения PDEs на криволинейных геометрических объектах, что имеет применение в области астрономии, геологии, физики и других. Также, эти результаты могут быть успешно применены в области машинного обучения для решения задач, которые требуют высокой точности и эффективности. В дальнейшем, эти

Abstract

A key challenge in scientific machine learning is solving partial differential equations (PDEs) on complex domains, where the curved geometry complicates the approximation of functions and their derivatives required by differential operators. This paper establishes the first simultaneous approximation theory for deep neural networks on manifolds. We prove that a constant-depth $\mathrm{ReLU}^{k-1}$ network with bounded weights--a property that plays a crucial role in controlling generalization error--can approximate any function in the Sobolev space $\mathcal{W}_p^{k}(\mathcal{M}^d)$ to an error of $\varepsilon$ in the $\mathcal{W}_p^{s}(\mathcal{M}^d)$ norm, for $k\geq 3$ and $s<k$, using $\mathcal{O}(\varepsilon^{-d/(k-s)})$ nonzero parameters, a rate that overcomes the curse of dimensionality by depending only on the intrinsic dimension $d$. These results readily extend to functions in H\"older-Zygmund spaces. We complement this result with a matching lower bound, proving our construction is nearly optimal by showing the required number of parameters matches up to a logarithmic factor. Our proof of the lower bound introduces novel estimates for the Vapnik-Chervonenkis dimension and pseudo-dimension of the network's high-order derivative classes. These complexity bounds provide a theoretical cornerstone for learning PDEs on manifolds involving derivatives. Our analysis reveals that the network architecture leverages a sparse structure to efficiently exploit the manifold's low-dimensional geometry.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Expressive Power of Deep Networks on Manifolds: Simultaneous Approximation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Energy Approach from $\varepsilon$-Graph to Continuum Diffusion Model with Conne...

Expressive Power of Deep Networks on Manifolds: Simultaneous Approximation

Навигация