Mode-Aware Non-Linear Tucker Autoencoder for Tensor-based Unsupervised Learning
2508.06784v1
cs.LG, cs.AI
2025-08-13
Авторы:
Junjing Zheng, Chengliang Song, Weidong Jiang, Xinyu Zhang
Резюме на русском
## Контекст
В современных приложениях, таких как компьютерное зрение, естественноязыковые обработка и медицинская информатика, часто приходится работать с высокомерными данными, представленными в виде высокоранговых тензоров. Этот вид данных обладает огромным потенциалом, но его анализ сталкивается с несколькими проблемами. Обычные методы, такие как традиционные MLP-based autoencoders (AE), сталкиваются с проблемой того, что тензоры должны быть операцией разворачивания (flattening), что приводит к огромному росту модели, высокому расходу вычислительных ресурсов и сложности оптимизации при попытках глубокого углубления для учета структуры данных. Тензорные сети, такие как CP и Tucker, уменьшают вычислительные затраты, но часто ограничиваются в способности учитывать нелинейные зависимости в данных. Мотивацией для предложенного подхода является необходимость развития компактных, эффективных и гибких моделей, которые могут эффективно учитывать структуру высокомерных данных.
## Метод
Мы предлагаем Mode-Aware Non-Linear Tucker Autoencoder (MA-NTAE), который является универсальным решением для обработки высокомерных данных. Основной идеей является расширение классической Tucker-декомпозиции до нелинейной формы, используя Pick-and-Unfold strategy. Этот подход позволяет выполнять рекурсивный процесс разворачивания (unfold), кодирования (encode) и склеивания (fold) каждого режима (mode) тензора отдельно. Эта гибкость позволяет лучше учитывать структуру данных в режимах, а не просто разворачивать весь тензор в единое плоское представление. Модель также включает нелинейные функции, что дает возможность учитывать сложные нелинейные зависимости в данных. Благодаря этому, MA-NTAE применяет структурные признаки тензора непосредственно в модели, что приводит к лучшему усвоению данных. Мы также доказали, что комплексность модели растет линейно с рангом тензора и пропорционально к размеру мод, что делает ее эффективной для высокомерных данных.
## Результаты
Мы провели эксперименты на нескольких датасетах, включая тензорные данные из областей компьютерного зрения и естественного языка. Мы сравнили MA-NTAE с стандартными AE и другими тензорными сетями, такими как CP и Tucker. Модель MA-NTAE показала значительные выигрыши в задачах сжатия и кластеризации, особенно в случае высокоранговых тензоров. Например, в задаче кластеризации, MA-NTAE показала более высокую точность в сравнении с конкурирующими моделями, особенно для тензоров с большим количеством режимов. Также, мы провели эксперименты с разными размерами тензоров, и показали, что MA-NTAE имеет линейный рост вычислительной сложности по сравнении с квадратичным ростом у других моделей. Это делает MA-NTAE
Abstract
High-dimensional data, particularly in the form of high-order tensors,
presents a major challenge in self-supervised learning. While MLP-based
autoencoders (AE) are commonly employed, their dependence on flattening
operations exacerbates the curse of dimensionality, leading to excessively
large model sizes, high computational overhead, and challenging optimization
for deep structural feature capture. Although existing tensor networks
alleviate computational burdens through tensor decomposition techniques, most
exhibit limited capability in learning non-linear relationships. To overcome
these limitations, we introduce the Mode-Aware Non-linear Tucker Autoencoder
(MA-NTAE). MA-NTAE generalized classical Tucker decomposition to a non-linear
framework and employs a Pick-and-Unfold strategy, facilitating flexible
per-mode encoding of high-order tensors via recursive unfold-encode-fold
operations, effectively integrating tensor structural priors. Notably, MA-NTAE
exhibits linear growth in computational complexity with tensor order and
proportional growth with mode dimensions. Extensive experiments demonstrate
MA-NTAE's performance advantages over standard AE and current tensor networks
in compression and clustering tasks, which become increasingly pronounced for
higher-order, higher-dimensional tensors.
Ссылки и действия
Дополнительные ресурсы: