HodgeFormer: Transformers for Learnable Operators on Triangular Meshes through Data-Driven Hodge Matrices

2509.01839v2 cs.GR, cs.AI, cs.CV 2025-09-05
Авторы:

Akis Nousias, Stavros Nousias

Резюме на русском

########################## ## Контекст ########################## Область данных исследований относится к методам машинного обучения для анализа трехмерных моделей, таких как мешы. Несмотря на прогрессы в этой области, существуют проблемы, связанные с вычислительной сложностью и неэффективностью используемых моделей. Традиционные Transformer-архитектуры для анализа трехмерных моделей опираются на спектральные признаки, полученные через эйнштейновское декомпозиция, что требует вычислительных ресурсов и длительного времени. Для улучшения эффективности использования ресурсов, а также для того, чтобы создать модель, которая могла бы более эффективно интепретировать меш-структуры, было предложено использовать более природные подходы, призванные упростить вычисления и уменьшить необходимость в спектральных методах. ########################## ## Метод ########################## В ходе работы разработана новая архитектура, использующая Hodge Laplacian operator, который является произведением дискретных Hodge операторов и внешних дифференциалов. Эта модель основывается на понятиях Discrete Exterior Calculus (DEC) и предлагает новую методологию для кодирования меша. Архитектура Transformer настроена таким образом, чтобы модель могла учитывать Hodge матрицы $\star_0$, $\star_1$ и $\star_2$, которые являются составляющими частями уравнений Hodge. Таким образом, алгоритм может вычислять дискретные операторы $L$ без необходимости в операциях типа эйнштейновского декомпозиции. Это решение позволяет сократить вычислительные затраты и обеспечивает более эффективное обучение. ########################## ## Результаты ########################## Результаты экспериментов показывают, что новая модель, HodgeFormer, демонстрирует похожую эффективность в задачах классификации и сегментации мешей, в сравнении с традиционными моделями. Однако, в отличие от них, HodgeFormer не требует дорогостоящих операций спектрального декомпозиции, что делает ее более эффективной в плане ресурсов. Эксперименты проводились на наборе данных с различными трехмерными моделями, и результаты показали, что модель HodgeFormer не только экономит ресурсы, но и демонстрирует высокую точность в задачах анализа трехмерных моделей. ########################## ## Значимость ########################## Предлагаемая модель HodgeFormer может быть применена в различных областях, где требуется анализ трехмерных моделей, таких как визуальные системы, медицинская имиджметрия, геоинформатика и другие. Наиболее заметными преимуществами являются сокращение вычислительных затрат, улучшение производительности и упрощение процесса обучения. Эта модель также открывает пути для будущих исследований в области дискретных методов анализа трехмерных моделей, в том числе в рамках других машинного обучения. ##########################

Abstract

Currently, prominent Transformer architectures applied on graphs and meshes for shape analysis tasks employ traditional attention layers that heavily utilize spectral features requiring costly eigenvalue decomposition-based methods. To encode the mesh structure, these methods derive positional embeddings, that heavily rely on eigenvalue decomposition based operations, e.g. on the Laplacian matrix, or on heat-kernel signatures, which are then concatenated to the input features. This paper proposes a novel approach inspired by the explicit construction of the Hodge Laplacian operator in Discrete Exterior Calculus as a product of discrete Hodge operators and exterior derivatives, i.e. $(L := \star_0^{-1} d_0^T \star_1 d_0)$. We adjust the Transformer architecture in a novel deep learning layer that utilizes the multi-head attention mechanism to approximate Hodge matrices $\star_0$, $\star_1$ and $\star_2$ and learn families of discrete operators $L$ that act on mesh vertices, edges and faces. Our approach results in a computationally-efficient architecture that achieves comparable performance in mesh segmentation and classification tasks, through a direct learning framework, while eliminating the need for costly eigenvalue decomposition operations or complex preprocessing operations.

Ссылки и действия