📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Sergey Pozdnyakov, Philippe Schwaller
## Контекст
Многомерные линейные слои (linear layers) широко используются в современных моделях глубокого обучения, но они требуют большого объема параметров и вычислительных ресурсов. Это приводит к значительным затратам на инференс и ограничениям в производительности. Одной из мотиваций для исследования является поиск методов, которые могли бы сочетать высокую степень общности с меньшими требованиями к вычислительным ресурсам. В частности, модели с применением сверток или плотных слоев часто сталкиваются с проблемами эффективности, особенно при работе с высокомерных данных. Исследование новых архитектур, которые могут уменьшить вычислительные затраты и увеличить производительность, является ключевым направлением в развитии беговой машины.
## Метод
Мы предлагаем метод, названный lookup multivariate Kolmogorov-Arnold Networks (lmKANs), который представляет собой новую архитектуру для выражения многомерных линейных отображений. Метод основывается на идее сплайновых таблиц поиска (lookup tables), которые позволяют выражать высокомерные функции с минимальным числом вычислительных операций. Главная идея заключается в том, чтобы разделить высокомерное пространство на многомерные подпространства, для которых задаются низкомерные функции, обучаемые в ходе обучения. Эти функции имеют низкую сложность (до десятков или сотен параметров) и вычисляются эффективно за счет использования таблиц поиска. Это позволяет сократить число операций для вычисления высокомерных функций, не ухудшая точность.
## Результаты
Мы провели эксперименты, сравнивая производительность lmKANs с традиционными моделями, такими как Многослойные Перцептроны (MLPs) и сверточные нейронные сети (CNNs). Наша модель показала выигрыш в производительности, сократив число операций свертки (FLOPs) до 6.0 раз на некоторых наборах данных, при этом сохранив точность, равную моделям с более высокими ресурсами. На данных, представляющих собой случайно разбросанные конфигурации гетероатомов в молекуле метана, lmKANs обеспечили более чем 10-кратное увеличение производительности на GPU H100, сохранив точность. Также они показали значительные выигрыши в производительности для моделей сверточных нейронных сетей, сократив FLOPs на 1.6-2.1 раз для датасетов CIFAR-10 и ImageNet-1k соответственно. Эти результаты доказывают эффективность lmKANs в решении задач, требующих высокой производительности и точности.
## Значимость
Предлагаемая архитектура lmKANs может быть применена в различных областях, где необходима высокая производительность и эффективность вычислений, таких как моделирование высокомерных систем, обработка изображений, анализ данных и другие прилож
Annotation:
High-dimensional linear mappings, or linear layers, dominate both the
parameter count and the computational cost of most modern deep-learning models.
We introduce a general drop-in replacement, lookup multivariate
Kolmogorov-Arnold Networks (lmKANs), which deliver a substantially better
trade-off between capacity and inference cost. Our construction expresses a
general high-dimensional mapping through trainable low-dimensional multivariate
functions. These functions can carry dozens or hundreds ...