Natively Trainable Sparse Attention for Hierarchical Point Cloud Datasets

2508.10758v1 cs.LG, cs.AI 2025-08-16
Авторы:

Nicolas Lapautre, Maria Marchenko, Carlos Miguel Patiño, Xin Zhou

Резюме на русском

## Контекст Область исследования — обработка данных высокой размерности, в частности точечных облаков (point cloud datasets), которые широко используются в физических науках. Одной из основных проблем при обработке таких данных является высокая размерность изображений и объем данных, что приводит к вычислительным затруднениям. Классические модели трансформеров страдают от квадратичного скалянга (quadratic scaling) в механизме ансамбля (attention mechanism), что ограничивает их эффективность при работе с большими данными. Задача исследования — сузить квадратичную сложность за счет применения нормализованного механизма упрощения (Native Sparse Attention, NSA), который позволяет сократить число вычислений и увеличить репертуар модели. Выбор темы связан с целью улучшить модели трансформеров для обработки больших данных в физических науках. ## Метод Методология исследования основывается на комбинации двух основных концепций: Erwin-архитектуры и Native Sparse Attention (NSA). Основная идея заключается в адаптации NSA для обработки не-последовательных данных, таких как точечные облака. Архитектура Erwin предназначена для эффективной обработки таких данных, и NSA позволяет уменьшить сложность за счет работы только с важной частью данных. Для реализации использовались библиотеки PyTorch и Haiku, что позволило реализовать новый модельный тип. Данные для экспериментов были извлечены из трех физических научных наборов: моделирование вселенной (cosmology), динамика молекул (molecular dynamics) и моделирование давления в воздухе (air pressure modeling). Эти наборы данных были выбраны из-за их сложности и важности в приложениях физических наук. ## Результаты На основе экспериментов было показано, что модифицированная модель Erwin с NSA-механизмом показала результаты, которые впечатляют по своей эффективности и точности. Модель наблюдалась на нескольких датасетах, а результаты были сравнены с оригинальной моделью Erwin. На датасете cosmology, например, модель показала значительное увеличение скорости обработки, сохранив точность. Также была проведена репликация результатов из оригинальной работы по Erwin, что подтвердила правильность реализации. Эти результаты показали, что NSA-механизм позволяет модифицированную Erwin-модель использовать для обработки больших данных с высокой эффективностью. ## Значимость Полученные результаты имеют значительное значение для применений в физических науках, таких как моделирование крупных систем, анализ реакций и моделирование воздушных сред. Эффективность модели NSA-Erwin позволяет работать с большими объемами данных с меньшими вычислительными затратами, что значительно повышает скорость и эффективность исследований. Также NSA может быть применен в других областях, где треб

Abstract

Unlocking the potential of transformers on datasets of large physical systems depends on overcoming the quadratic scaling of the attention mechanism. This work explores combining the Erwin architecture with the Native Sparse Attention (NSA) mechanism to improve the efficiency and receptive field of transformer models for large-scale physical systems, addressing the challenge of quadratic attention complexity. We adapt the NSA mechanism for non-sequential data, implement the Erwin NSA model, and evaluate it on three datasets from the physical sciences -- cosmology simulations, molecular dynamics, and air pressure modeling -- achieving performance that matches or exceeds that of the original Erwin model. Additionally, we reproduce the experimental results from the Erwin paper to validate their implementation.

Ссылки и действия