Prototype Training with Dual Pseudo-Inverse and Optimized Hidden Activations
2508.09787v1
cs.LG, cs.AI
2025-08-15
Авторы:
Mauro Tucci
Резюме на русском
## Контекст
Актуальным в данный момент является развитие алгоритмов машинного обучения, которые обладают высокой скоростью и эффективностью, особенно в задачах классификации и регрессии. Одной из перспективных направлений является использование генеративных моделей, которые позволяют эффективно оптимизировать параметры моделей, снижая время обучения и улучшая точность результатов. Тем не менее, существует ряд проблем: ограниченная скорость обучения, неэффективность некоторых алгоритмов при работе с большими наборами данных и ограниченность возможности адаптации моделей к различным типам данных. Эти проблемы мотивируют разработку новых методологий, которые могут улучшить производительность и гибкость машинного обучения.
## Метод
Методом Proto-PINV+H разработана уникальная архитектура, которая объединяет закрытую форму вычисления весов с градиентным оптимизацией небольшого набора синтетических входных данных, мягких меток и внутренних активаций нейронной сети. Основной идеей является перенос тренируемых параметров с весов модели в пространство входных данных и внутренних активаций. Закрытая форма решения весов основывается на решении уравнений с помощью псевдо-обратного решения, что позволяет значительно ускорить процесс обучения. На каждой итерации происходит пересчет весов модели, а прототипы обновляются с помощью оптимизатора Adam. Метод также добавляет возможность управлять параметрами regularization и использовать различные проекции, такие как PCA и PLS. Это позволяет повысить точность и стабильность обучения.
## Результаты
Проведенные эксперименты продемонстрировали высокую эффективность Proto-PINV+H на двух задачах классификации: MNIST и Fashion-MNIST. Метод достиг тестовой точности 97.8% и 89.3%, соответственно, за время обучения в 3.9–4.5 секунд на карте RTX 5060 с 16 Гб VRAM. Это было достигнуто за счет применения приблизительно 130 тысяч тренируемых параметров и 250 эпох обучения. Такие результаты показали значительное превосходство Proto-PINV+H над другими алгоритмами, такими как ELM, random-feature ridge и даже сверточные нейронные сети, обучаемые с помощью обратного распространения ошибки.
## Значимость
Предложенная модель имеет широкие применения в области быстрого обучения с различными типами данных, включая изображения и текст. Она эффективна в ситуациях, где необходима высокая скорость модели, но при этом необходимо сохранить высокую точность. Особенно важным является применение Proto-PINV+H в реальном времени, когда необходимо быстро реагировать на входящие данные. Кроме того, метод обеспечивает значительные преимущества в уменьшении размера мо
Abstract
We present Proto-PINV+H, a fast training paradigm that combines closed-form
weight computation with gradient-based optimisation of a small set of synthetic
inputs, soft labels, and-crucially-hidden activations. At each iteration we
recompute all weight matrices in closed form via two (or more)
ridge-regularised pseudo-inverse solves, while updating only the prototypes
with Adam. The trainable degrees of freedom are thus shifted from weight space
to data/activation space. On MNIST (60k train, 10k test) and Fashion-MNIST (60k
train, 10k test), our method reaches 97.8% and 89.3% test accuracy on the
official 10k test sets, respectively, in 3.9s--4.5s using approximately 130k
trainable parameters and only 250 epochs on an RTX 5060 (16GB). We provide a
multi-layer extension (optimised activations at each hidden stage), learnable
ridge parameters, optional PCA/PLS projections, and theory linking the
condition number of prototype matrices to generalisation. The approach yields
favourable accuracy--speed--size trade-offs against ELM, random-feature ridge,
and shallow MLPs trained by back-propagation.
Ссылки и действия
Дополнительные ресурсы: