Curvature Learning for Generalization of Hyperbolic Neural Networks

2508.17232v2 cs.LG, cs.CV, stat.ML 2025-08-27
Авторы:

Xiaomeng Fan, Yuwei Wu, Zhi Gao, Mehrtash Harandi, Yunde Jia

Резюме на русском

## Контекст Hyperbolic neural networks (HNNs) приобрели популярность в области машинного обучения, особенно при работе с данными, имеющими древовидную или хирархическую структуру. Эти сети эффективно используют геометрические свойства гиперболических пространств, характеризующихся отрицательными кривизнами. Однако кривизна, как главный параметр, может сильно влиять на эффективность и качество обучения HNNs. Неправильный выбор кривизны может привести к плохому формированию параметров, ухудшению показателей обучения и возможному ранее достижению стабильного решения. Несмотря на практический успех HNNs, теоретическая основа влияния кривизны на их обучение и генерализацию остается недостаточно изученной. Одной из задач, предъявляемой к HNNs, является минимизация риска ошибки при генерализации. Текущие подходы недостаточно эффективны, и есть необходимость в усовершенствовании. ## Метод Мы предлагаем метод **Curvature Learning for Generalization of Hyperbolic Neural Networks**. Наша методика основывается на разработке критерия генерализации HNNs с учетом кривизны — PAC-Bayesian статистического теоремы. Мы выводим обобщающую баузианскую оценку, подчеркивающую влияние кривизны на сглаживание ландшафта потерь. Это позволяет выявить точки высокой кривизны, которые могут приводить к тому, что сеть не будет сходиться к оптимальному решению. Далее, мы предлагаем метод **Sharpness-Aware Curvature Learning**, в котором используется **метрика scope sharpness**. Это позволяет оптимизировать кривизну и уменьшить потери в локальных минимумах. Мы используем **би-уровневый процесс оптимизации**, в котором первоначальная задача — найти критические точки кривизны. Для этих целей мы применяем **императивную дифференциацию**, что позволяет эффективно решать задачу. Также мы изучаем анализ ошибки приближения и выявляем условия, при которых метод может быть применен. ## Результаты Мы проводили эксперименты на четырёх областях применения: 1) классической классификации данных, 2) обучению с длинными хвостами (long-tailed learning), 3) обучению с неточными данными и 4) обучению с пары-shot обучением. Мы сравнивали полученные результаты с другими методами, такими как **learnable curvature** и **adaptive curvature regularization**. Наши результаты показывают, что **sharpness-aware curvature learning** позволяет повысить показатели генерализации HNNs на этих задачах. Мы также проводили анализ ошибки приближения и проверили надежность нашего метода. В результате, мы доказали, что наша методика эффективна и может быть применена в различных сферах. ## Значимость Наша работа имеет значительные практические применения в следующих областях: - **Нейросети для древовидных данных**: HNNs могут быть использованы для модели

Abstract

Hyperbolic neural networks (HNNs) have demonstrated notable efficacy in representing real-world data with hierarchical structures via exploiting the geometric properties of hyperbolic spaces characterized by negative curvatures. Curvature plays a crucial role in optimizing HNNs. Inappropriate curvatures may cause HNNs to converge to suboptimal parameters, degrading overall performance. So far, the theoretical foundation of the effect of curvatures on HNNs has not been developed. In this paper, we derive a PAC-Bayesian generalization bound of HNNs, highlighting the role of curvatures in the generalization of HNNs via their effect on the smoothness of the loss landscape. Driven by the derived bound, we propose a sharpness-aware curvature learning method to smooth the loss landscape, thereby improving the generalization of HNNs. In our method, we design a scope sharpness measure for curvatures, which is minimized through a bi-level optimization process. Then, we introduce an implicit differentiation algorithm that efficiently solves the bi-level optimization by approximating gradients of curvatures. We present the approximation error and convergence analyses of the proposed method, showing that the approximation error is upper-bounded, and the proposed method can converge by bounding gradients of HNNs. Experiments on four settings: classification, learning from long-tailed data, learning from noisy data, and few-shot learning show that our method can improve the performance of HNNs.

Ссылки и действия