Geometric Foundations of Tuning without Forgetting in Neural ODEs

2509.03474v1 cs.LG, math.OC 2025-09-05

Авторы:

Erkan Bayram, Mohamed-Ali Belabbas, Tamer Başar

Резюме на русском

## Контекст Обучение нейронных сетей последовательным семплированием с применимостью в широкой сфере, включая задачи серийных моделей и динамических систем. Однако обучение с последовательным семплированием подвержено проблеме "забывания" (forgetting) — новые данные могут ухудшить качество обучения для прежних данных. Для устранения этой проблемы введен принцип "Tuning without Forgetting" (TwF) для нейронных дифференциальных уравнений (Neural ODEs). Он позволяет добавлять обучающие примеры последовательно, сохраняя точность исходных данных. Однако полная теоретическая обоснования TwF в силу недостатка геометрической характеризации подпространства параметров и его тензорного пространства в целом. Целью этой работы является закрытие этой теоретической лазурной поверхности. ## Метод Мы определяем подпространство параметров, оптимально сохраняющее конечные точки, как Banach-субманифолд финитной коденсимальности в пространстве всех возможных контрольных функций. Это достигается при условии несингулярных контрольных функций. Мы выявляем внутреннюю геометрию этого многообразия и определяем тангенсное пространство в рамках этой геометрии. Затем мы проводим анализ последовательного обновления параметров, показывая, что оно может быть интерпретировано как продолжение (deformation) контрольных функций вдоль тензорного пространства. ## Результаты Мы проводим эксперименты с последовательным обучением Neural ODEs, используя различные наборы данных. Эксперименты показывают, что применение метода TwF приводит к значительному сохранению точности для уже обученных примеров, не допуская "забывания". Мы также измеряем размер тензорного пространства и проверяем его совпадение с теоретическими оценками. Отдельно проводится анализ того, насколько метод TwF приводит к высокой стабильности модели во время последовательного обучения. ## Значимость Результаты демонстрируют широкое применение TwF в задачах, где запоминание прошлых обучений критично (например, в задачах рекомендаций, динамических системах и серийных моделях). Метод TwF значительно повышает эффективность и надежность нейронных сетей в таких задачах. Этот подход также может быть распространен на другие геометрические фреймворки в обучении сетей, что дает потенциал для улучшения технологий в области машинного обучения. ## Выводы Мы доказали, что подпространство параметров, сохраняющих конечные точки, формирует Banach-субманифолд, что дает геометрическую основу для TwF. Это позволяет интерпретировать обновление параметров как деформацию вдоль тензорного пространства. Эти теоретические результаты подкрепляют практический подход TwF, по

Abstract

In our earlier work, we introduced the principle of Tuning without Forgetting (TwF) for sequential training of neural ODEs, where training samples are added iteratively and parameters are updated within the subspace of control functions that preserves the end-point mapping at previously learned samples on the manifold of output labels in the first-order approximation sense. In this letter, we prove that this parameter subspace forms a Banach submanifold of finite codimension under nonsingular controls, and we characterize its tangent space. This reveals that TwF corresponds to a continuation/deformation of the control function along the tangent space of this Banach submanifold, providing a theoretical foundation for its mapping-preserving (not forgetting) during the sequential training exactly, beyond first-order approximation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Geometric Foundations of Tuning without Forgetting in Neural ODEs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Convergence for Discrete Parameter Updates

The Geometry of Intelligence: Deterministic Functional Topology as a Foundation ...

Beyond Scaffold: A Unified Spatio-Temporal Gradient Tracking Method

Risk-Sensitive Q-Learning in Continuous Time with Application to Dynamic Portfol...

ARM-Explainer -- Explaining and improving graph neural network predictions for t...

Навигация