Lookup multivariate Kolmogorov-Arnold Networks
2509.07103v1
cs.LG, cs.AI, cs.PF, cs.SE
2025-09-11
Авторы:
Sergey Pozdnyakov, Philippe Schwaller
Резюме на русском
## Контекст
Многомерные линейные слои (linear layers) широко используются в современных моделях глубокого обучения, но они требуют большого объема параметров и вычислительных ресурсов. Это приводит к значительным затратам на инференс и ограничениям в производительности. Одной из мотиваций для исследования является поиск методов, которые могли бы сочетать высокую степень общности с меньшими требованиями к вычислительным ресурсам. В частности, модели с применением сверток или плотных слоев часто сталкиваются с проблемами эффективности, особенно при работе с высокомерных данных. Исследование новых архитектур, которые могут уменьшить вычислительные затраты и увеличить производительность, является ключевым направлением в развитии беговой машины.
## Метод
Мы предлагаем метод, названный lookup multivariate Kolmogorov-Arnold Networks (lmKANs), который представляет собой новую архитектуру для выражения многомерных линейных отображений. Метод основывается на идее сплайновых таблиц поиска (lookup tables), которые позволяют выражать высокомерные функции с минимальным числом вычислительных операций. Главная идея заключается в том, чтобы разделить высокомерное пространство на многомерные подпространства, для которых задаются низкомерные функции, обучаемые в ходе обучения. Эти функции имеют низкую сложность (до десятков или сотен параметров) и вычисляются эффективно за счет использования таблиц поиска. Это позволяет сократить число операций для вычисления высокомерных функций, не ухудшая точность.
## Результаты
Мы провели эксперименты, сравнивая производительность lmKANs с традиционными моделями, такими как Многослойные Перцептроны (MLPs) и сверточные нейронные сети (CNNs). Наша модель показала выигрыш в производительности, сократив число операций свертки (FLOPs) до 6.0 раз на некоторых наборах данных, при этом сохранив точность, равную моделям с более высокими ресурсами. На данных, представляющих собой случайно разбросанные конфигурации гетероатомов в молекуле метана, lmKANs обеспечили более чем 10-кратное увеличение производительности на GPU H100, сохранив точность. Также они показали значительные выигрыши в производительности для моделей сверточных нейронных сетей, сократив FLOPs на 1.6-2.1 раз для датасетов CIFAR-10 и ImageNet-1k соответственно. Эти результаты доказывают эффективность lmKANs в решении задач, требующих высокой производительности и точности.
## Значимость
Предлагаемая архитектура lmKANs может быть применена в различных областях, где необходима высокая производительность и эффективность вычислений, таких как моделирование высокомерных систем, обработка изображений, анализ данных и другие прилож
Abstract
High-dimensional linear mappings, or linear layers, dominate both the
parameter count and the computational cost of most modern deep-learning models.
We introduce a general drop-in replacement, lookup multivariate
Kolmogorov-Arnold Networks (lmKANs), which deliver a substantially better
trade-off between capacity and inference cost. Our construction expresses a
general high-dimensional mapping through trainable low-dimensional multivariate
functions. These functions can carry dozens or hundreds of trainable parameters
each, and yet it takes only a few multiplications to compute them because they
are implemented as spline lookup tables. Empirically, lmKANs reduce inference
FLOPs by up to 6.0x while matching the flexibility of MLPs in general
high-dimensional function approximation. In another feedforward fully connected
benchmark, on the tabular-like dataset of randomly displaced methane
configurations, lmKANs enable more than 10x higher H100 throughput at equal
accuracy. Within frameworks of Convolutional Neural Networks, lmKAN-based CNNs
cut inference FLOPs at matched accuracy by 1.6-2.1x and by 1.7x on the CIFAR-10
and ImageNet-1k datasets, respectively. Our code, including dedicated CUDA
kernels, is available online at https://github.com/schwallergroup/lmkan.