Anisotropic Fourier Features for Positional Encoding in Medical Imaging
2509.02488v1
cs.CV, cs.LG
2025-09-05
Авторы:
Nabil Jabareen, Dongsheng Yuan, Dingming Liu, Foo-Wei Ten, Sören Lukassen
Резюме на русском
#### Контекст
Трансформер-подобные архитектуры находят все более широкое применение в медицинской области, особенно в области медицинской иммуграфии, где необходимо анализировать сложные формы, такие как органы, ткани или другие анатомические структуры. Однако адаптация этих архитектур к медицинским задачам сталкивается с рядом проблем. В частности, медицинские изображения часто обладают анизотропным характером, что означает, что размеры и характеристики различных структур могут существенно различаться в разных направлениях. Это создает сложности при применении общих позиционных кодирований (PE), которые часто используются в трансформерах. Кроме того, обычные линейные кодирования, такие как sinusoidal Positional Encodings (SPEs), хотя и показали высокую эффективность в визуальных задачах, не всегда успешно захватывают геометрические отношения в многомерных пространствах. Эти проблемы приводят к потере точности в результатах и неэффективности моделей. В данном исследовании мы сосредоточились на этих проблемах и предложили решение, которое учитывает анизотропию в медицинских изображениях.
#### Метод
Мы предложили **Anisotropic Fourier Feature Positional Encoding (AFPE)**, который является расширением Isotropic Fourier Feature Positional Encodings (IFPE) и учитывает анизотропию в изображениях. В отличие от IFPE, AFPE включает в себя анизотропные, класс-зависимые и домен-зависимые зависимости пространства. Методология AFPE основывается на расширении Fourier Features и их интеграции с трансформером для позиционного кодирования. Мы разработали математическую модель, позволяющую учитывать отношения длины в разных направлениях в пространстве изображения. Это позволяет нашей модели лучше адаптироваться к характеристикам медицинских изображений, которые часто обладают сильно анизотропным характером. Мы также использовали методы кросс-валидации и эксперименты на реальных данных, чтобы проверить эффективность нашей модели.
#### Результаты
Мы проверили AFPE на нескольких задачах в медицинской иммуграфии: классификации многомерных медицинских изображений (например, классификации легких на X-образцах), классификации органов на CT-сканах и регрессию эффективности сердечного отката (ejection fraction) на изображениях эхокардиографии. Мы сравнили AFPE с другими позиционными кодированиями, включая sinusoidal Positional Encodings (SPEs) и isotropic Fourier Feature Positional Encodings (IFPE). Наши результаты показали, что AFPE значительно выигрывает в решении задач в анизотропных условиях, где другие позиционные кодирования показывали снижение производительности. Кроме того, мы выявили, что в зависимости от формы объектов в изображении и их анизотропии, лучшую модель можно по
Abstract
The adoption of Transformer-based architectures in the medical domain is
growing rapidly. In medical imaging, the analysis of complex shapes - such as
organs, tissues, or other anatomical structures - combined with the often
anisotropic nature of high-dimensional images complicates these adaptations. In
this study, we critically examine the role of Positional Encodings (PEs),
arguing that commonly used approaches may be suboptimal for the specific
challenges of medical imaging. Sinusoidal Positional Encodings (SPEs) have
proven effective in vision tasks, but they struggle to preserve Euclidean
distances in higher-dimensional spaces. Isotropic Fourier Feature Positional
Encodings (IFPEs) have been proposed to better preserve Euclidean distances,
but they lack the ability to account for anisotropy in images. To address these
limitations, we propose Anisotropic Fourier Feature Positional Encoding (AFPE),
a generalization of IFPE that incorporates anisotropic, class-specific, and
domain-specific spatial dependencies. We systematically benchmark AFPE against
commonly used PEs on multi-label classification in chest X-rays, organ
classification in CT images, and ejection fraction regression in
echocardiography. Our results demonstrate that choosing the correct PE can
significantly improve model performance. We show that the optimal PE depends on
the shape of the structure of interest and the anisotropy of the data. Finally,
our proposed AFPE significantly outperforms state-of-the-art PEs in all tested
anisotropic settings. We conclude that, in anisotropic medical images and
videos, it is of paramount importance to choose an anisotropic PE that fits the
data and the shape of interest.
Ссылки и действия
Дополнительные ресурсы: