Expressive Power of Deep Networks on Manifolds: Simultaneous Approximation
2509.09362v2
math.NA, cs.LG, cs.NA, stat.ML
2025-09-16
Авторы:
Hanfei Zhou, Lei Shi
Резюме на русском
## Контекст
В настоящее время в сфере научных вычислений одной из главных проблем является решение частных дифференциальных уравнений (PDEs) на сложных геометрических объектах. Значительная сложность возникает из-за криволинейной геометрии, которая усложняет точное вычисление функций и их производных, требуемых для решения PDEs. Данный аспект требует развития новых методологий и алгоритмов, которые могут эффективно работать в такой среде. Данная статья привносит основу для продвижения теории обучения сетей на нейронных сетях на многообразиях, что является ключевым вопросом в широком спектре приложений, таких как геометрически сложные области, а также в области решения PDEs в таких областях как астрономия, геология и физика.
## Метод
В этой работе предлагается новая теория конкурентной аппроксимации для нейросетей на многообразиях. Используется архитектура с глубокими нейросетями, включающих в себя активационную функцию ReLU, которая имеет ограниченные веса. Эта архитектура может аппроксимировать функции в холдер-зыгмундских пространствах и в сфере $\mathcal{W}_p^{k}(\mathcal{M}^d)$. Работа включает в себя определение понятия "необходимого количества сетевых параметров" для точного аппроксимирования функций в указанных пространствах. Также рассматривается схожесть существующих методов с новым подходом, а также анализ эффективности новой архитектуры в случае решения PDEs на криволинейных многообразиях.
## Результаты
В ходе исследования установлено, что для аппроксимации функций в пространстве $\mathcal{W}_p^{k}(\mathcal{M}^d)$, где $k \geq 3$ и $s < k$, а также в холдер-зыгмундских пространствах, требуется не более чем $\mathcal{O}(\varepsilon^{-d/(k-s)})$ нейросетевых параметров. Это доказывается также для случая $\mathcal{W}_p^{k}(\mathcal{M}^d)$, где $k \geq 3$. Анализ показывает, что эта структура сети эффективно использует геометрию многообразия, при этом относительно небольшое количество сетевых параметров позволяет решать PDEs на криволинейных объектах с высокой точностью. Также были получены нижние оценки для необходимого количества параметров, показав, что алгоритм почти оптимален.
## Значимость
Результаты этого исследования имеют значительное значение в нескольких областях. Они могут быть применены для решения PDEs на криволинейных геометрических объектах, что имеет применение в области астрономии, геологии, физики и других. Также, эти результаты могут быть успешно применены в области машинного обучения для решения задач, которые требуют высокой точности и эффективности. В дальнейшем, эти
Abstract
A key challenge in scientific machine learning is solving partial
differential equations (PDEs) on complex domains, where the curved geometry
complicates the approximation of functions and their derivatives required by
differential operators. This paper establishes the first simultaneous
approximation theory for deep neural networks on manifolds. We prove that a
constant-depth $\mathrm{ReLU}^{k-1}$ network with bounded weights--a property
that plays a crucial role in controlling generalization error--can approximate
any function in the Sobolev space $\mathcal{W}_p^{k}(\mathcal{M}^d)$ to an
error of $\varepsilon$ in the $\mathcal{W}_p^{s}(\mathcal{M}^d)$ norm, for
$k\geq 3$ and $s<k$, using $\mathcal{O}(\varepsilon^{-d/(k-s)})$ nonzero
parameters, a rate that overcomes the curse of dimensionality by depending only
on the intrinsic dimension $d$. These results readily extend to functions in
H\"older-Zygmund spaces. We complement this result with a matching lower bound,
proving our construction is nearly optimal by showing the required number of
parameters matches up to a logarithmic factor. Our proof of the lower bound
introduces novel estimates for the Vapnik-Chervonenkis dimension and
pseudo-dimension of the network's high-order derivative classes. These
complexity bounds provide a theoretical cornerstone for learning PDEs on
manifolds involving derivatives. Our analysis reveals that the network
architecture leverages a sparse structure to efficiently exploit the manifold's
low-dimensional geometry.