Curvature Learning for Generalization of Hyperbolic Neural Networks
2508.17232v2
cs.LG, cs.CV, stat.ML
2025-08-27
Авторы:
Xiaomeng Fan, Yuwei Wu, Zhi Gao, Mehrtash Harandi, Yunde Jia
Резюме на русском
## Контекст
Hyperbolic neural networks (HNNs) приобрели популярность в области машинного обучения, особенно при работе с данными, имеющими древовидную или хирархическую структуру. Эти сети эффективно используют геометрические свойства гиперболических пространств, характеризующихся отрицательными кривизнами. Однако кривизна, как главный параметр, может сильно влиять на эффективность и качество обучения HNNs. Неправильный выбор кривизны может привести к плохому формированию параметров, ухудшению показателей обучения и возможному ранее достижению стабильного решения. Несмотря на практический успех HNNs, теоретическая основа влияния кривизны на их обучение и генерализацию остается недостаточно изученной. Одной из задач, предъявляемой к HNNs, является минимизация риска ошибки при генерализации. Текущие подходы недостаточно эффективны, и есть необходимость в усовершенствовании.
## Метод
Мы предлагаем метод **Curvature Learning for Generalization of Hyperbolic Neural Networks**. Наша методика основывается на разработке критерия генерализации HNNs с учетом кривизны — PAC-Bayesian статистического теоремы. Мы выводим обобщающую баузианскую оценку, подчеркивающую влияние кривизны на сглаживание ландшафта потерь. Это позволяет выявить точки высокой кривизны, которые могут приводить к тому, что сеть не будет сходиться к оптимальному решению. Далее, мы предлагаем метод **Sharpness-Aware Curvature Learning**, в котором используется **метрика scope sharpness**. Это позволяет оптимизировать кривизну и уменьшить потери в локальных минимумах. Мы используем **би-уровневый процесс оптимизации**, в котором первоначальная задача — найти критические точки кривизны. Для этих целей мы применяем **императивную дифференциацию**, что позволяет эффективно решать задачу. Также мы изучаем анализ ошибки приближения и выявляем условия, при которых метод может быть применен.
## Результаты
Мы проводили эксперименты на четырёх областях применения: 1) классической классификации данных, 2) обучению с длинными хвостами (long-tailed learning), 3) обучению с неточными данными и 4) обучению с пары-shot обучением. Мы сравнивали полученные результаты с другими методами, такими как **learnable curvature** и **adaptive curvature regularization**. Наши результаты показывают, что **sharpness-aware curvature learning** позволяет повысить показатели генерализации HNNs на этих задачах. Мы также проводили анализ ошибки приближения и проверили надежность нашего метода. В результате, мы доказали, что наша методика эффективна и может быть применена в различных сферах.
## Значимость
Наша работа имеет значительные практические применения в следующих областях:
- **Нейросети для древовидных данных**: HNNs могут быть использованы для модели
Abstract
Hyperbolic neural networks (HNNs) have demonstrated notable efficacy in
representing real-world data with hierarchical structures via exploiting the
geometric properties of hyperbolic spaces characterized by negative curvatures.
Curvature plays a crucial role in optimizing HNNs. Inappropriate curvatures may
cause HNNs to converge to suboptimal parameters, degrading overall performance.
So far, the theoretical foundation of the effect of curvatures on HNNs has not
been developed. In this paper, we derive a PAC-Bayesian generalization bound of
HNNs, highlighting the role of curvatures in the generalization of HNNs via
their effect on the smoothness of the loss landscape. Driven by the derived
bound, we propose a sharpness-aware curvature learning method to smooth the
loss landscape, thereby improving the generalization of HNNs. In our method,
we design a scope sharpness measure for curvatures, which is minimized
through a bi-level optimization process. Then, we introduce an implicit
differentiation algorithm that efficiently solves the bi-level optimization by
approximating gradients of curvatures. We present the approximation error and
convergence analyses of the proposed method, showing that the approximation
error is upper-bounded, and the proposed method can converge by bounding
gradients of HNNs. Experiments on four settings: classification, learning from
long-tailed data, learning from noisy data, and few-shot learning show that our
method can improve the performance of HNNs.
Ссылки и действия
Дополнительные ресурсы: