Lookup multivariate Kolmogorov-Arnold Networks

2509.07103v1 cs.LG, cs.AI, cs.PF, cs.SE 2025-09-11
Авторы:

Sergey Pozdnyakov, Philippe Schwaller

Резюме на русском

## Контекст Многомерные линейные слои (linear layers) широко используются в современных моделях глубокого обучения, но они требуют большого объема параметров и вычислительных ресурсов. Это приводит к значительным затратам на инференс и ограничениям в производительности. Одной из мотиваций для исследования является поиск методов, которые могли бы сочетать высокую степень общности с меньшими требованиями к вычислительным ресурсам. В частности, модели с применением сверток или плотных слоев часто сталкиваются с проблемами эффективности, особенно при работе с высокомерных данных. Исследование новых архитектур, которые могут уменьшить вычислительные затраты и увеличить производительность, является ключевым направлением в развитии беговой машины. ## Метод Мы предлагаем метод, названный lookup multivariate Kolmogorov-Arnold Networks (lmKANs), который представляет собой новую архитектуру для выражения многомерных линейных отображений. Метод основывается на идее сплайновых таблиц поиска (lookup tables), которые позволяют выражать высокомерные функции с минимальным числом вычислительных операций. Главная идея заключается в том, чтобы разделить высокомерное пространство на многомерные подпространства, для которых задаются низкомерные функции, обучаемые в ходе обучения. Эти функции имеют низкую сложность (до десятков или сотен параметров) и вычисляются эффективно за счет использования таблиц поиска. Это позволяет сократить число операций для вычисления высокомерных функций, не ухудшая точность. ## Результаты Мы провели эксперименты, сравнивая производительность lmKANs с традиционными моделями, такими как Многослойные Перцептроны (MLPs) и сверточные нейронные сети (CNNs). Наша модель показала выигрыш в производительности, сократив число операций свертки (FLOPs) до 6.0 раз на некоторых наборах данных, при этом сохранив точность, равную моделям с более высокими ресурсами. На данных, представляющих собой случайно разбросанные конфигурации гетероатомов в молекуле метана, lmKANs обеспечили более чем 10-кратное увеличение производительности на GPU H100, сохранив точность. Также они показали значительные выигрыши в производительности для моделей сверточных нейронных сетей, сократив FLOPs на 1.6-2.1 раз для датасетов CIFAR-10 и ImageNet-1k соответственно. Эти результаты доказывают эффективность lmKANs в решении задач, требующих высокой производительности и точности. ## Значимость Предлагаемая архитектура lmKANs может быть применена в различных областях, где необходима высокая производительность и эффективность вычислений, таких как моделирование высокомерных систем, обработка изображений, анализ данных и другие прилож

Abstract

High-dimensional linear mappings, or linear layers, dominate both the parameter count and the computational cost of most modern deep-learning models. We introduce a general drop-in replacement, lookup multivariate Kolmogorov-Arnold Networks (lmKANs), which deliver a substantially better trade-off between capacity and inference cost. Our construction expresses a general high-dimensional mapping through trainable low-dimensional multivariate functions. These functions can carry dozens or hundreds of trainable parameters each, and yet it takes only a few multiplications to compute them because they are implemented as spline lookup tables. Empirically, lmKANs reduce inference FLOPs by up to 6.0x while matching the flexibility of MLPs in general high-dimensional function approximation. In another feedforward fully connected benchmark, on the tabular-like dataset of randomly displaced methane configurations, lmKANs enable more than 10x higher H100 throughput at equal accuracy. Within frameworks of Convolutional Neural Networks, lmKAN-based CNNs cut inference FLOPs at matched accuracy by 1.6-2.1x and by 1.7x on the CIFAR-10 and ImageNet-1k datasets, respectively. Our code, including dedicated CUDA kernels, is available online at https://github.com/schwallergroup/lmkan.

Ссылки и действия