Prototype Training with Dual Pseudo-Inverse and Optimized Hidden Activations

2508.09787v1 cs.LG, cs.AI 2025-08-15

Авторы:

Mauro Tucci

Резюме на русском

## Контекст Актуальным в данный момент является развитие алгоритмов машинного обучения, которые обладают высокой скоростью и эффективностью, особенно в задачах классификации и регрессии. Одной из перспективных направлений является использование генеративных моделей, которые позволяют эффективно оптимизировать параметры моделей, снижая время обучения и улучшая точность результатов. Тем не менее, существует ряд проблем: ограниченная скорость обучения, неэффективность некоторых алгоритмов при работе с большими наборами данных и ограниченность возможности адаптации моделей к различным типам данных. Эти проблемы мотивируют разработку новых методологий, которые могут улучшить производительность и гибкость машинного обучения. ## Метод Методом Proto-PINV+H разработана уникальная архитектура, которая объединяет закрытую форму вычисления весов с градиентным оптимизацией небольшого набора синтетических входных данных, мягких меток и внутренних активаций нейронной сети. Основной идеей является перенос тренируемых параметров с весов модели в пространство входных данных и внутренних активаций. Закрытая форма решения весов основывается на решении уравнений с помощью псевдо-обратного решения, что позволяет значительно ускорить процесс обучения. На каждой итерации происходит пересчет весов модели, а прототипы обновляются с помощью оптимизатора Adam. Метод также добавляет возможность управлять параметрами regularization и использовать различные проекции, такие как PCA и PLS. Это позволяет повысить точность и стабильность обучения. ## Результаты Проведенные эксперименты продемонстрировали высокую эффективность Proto-PINV+H на двух задачах классификации: MNIST и Fashion-MNIST. Метод достиг тестовой точности 97.8% и 89.3%, соответственно, за время обучения в 3.9–4.5 секунд на карте RTX 5060 с 16 Гб VRAM. Это было достигнуто за счет применения приблизительно 130 тысяч тренируемых параметров и 250 эпох обучения. Такие результаты показали значительное превосходство Proto-PINV+H над другими алгоритмами, такими как ELM, random-feature ridge и даже сверточные нейронные сети, обучаемые с помощью обратного распространения ошибки. ## Значимость Предложенная модель имеет широкие применения в области быстрого обучения с различными типами данных, включая изображения и текст. Она эффективна в ситуациях, где необходима высокая скорость модели, но при этом необходимо сохранить высокую точность. Особенно важным является применение Proto-PINV+H в реальном времени, когда необходимо быстро реагировать на входящие данные. Кроме того, метод обеспечивает значительные преимущества в уменьшении размера мо

Abstract

We present Proto-PINV+H, a fast training paradigm that combines closed-form weight computation with gradient-based optimisation of a small set of synthetic inputs, soft labels, and-crucially-hidden activations. At each iteration we recompute all weight matrices in closed form via two (or more) ridge-regularised pseudo-inverse solves, while updating only the prototypes with Adam. The trainable degrees of freedom are thus shifted from weight space to data/activation space. On MNIST (60k train, 10k test) and Fashion-MNIST (60k train, 10k test), our method reaches 97.8% and 89.3% test accuracy on the official 10k test sets, respectively, in 3.9s--4.5s using approximately 130k trainable parameters and only 250 epochs on an RTX 5060 (16GB). We provide a multi-layer extension (optimised activations at each hidden stage), learnable ridge parameters, optional PCA/PLS projections, and theory linking the condition number of prototype matrices to generalisation. The approach yields favourable accuracy--speed--size trade-offs against ELM, random-feature ridge, and shallow MLPs trained by back-propagation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Prototype Training with Dual Pseudo-Inverse and Optimized Hidden Activations

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prototype-Based Semantic Consistency Alignment for Domain Adaptive Retrieval

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

Навигация