Geometric Foundations of Tuning without Forgetting in Neural ODEs
2509.03474v1
cs.LG, math.OC
2025-09-05
Авторы:
Erkan Bayram, Mohamed-Ali Belabbas, Tamer Başar
Резюме на русском
## Контекст
Обучение нейронных сетей последовательным семплированием с применимостью в широкой сфере, включая задачи серийных моделей и динамических систем. Однако обучение с последовательным семплированием подвержено проблеме "забывания" (forgetting) — новые данные могут ухудшить качество обучения для прежних данных. Для устранения этой проблемы введен принцип "Tuning without Forgetting" (TwF) для нейронных дифференциальных уравнений (Neural ODEs). Он позволяет добавлять обучающие примеры последовательно, сохраняя точность исходных данных. Однако полная теоретическая обоснования TwF в силу недостатка геометрической характеризации подпространства параметров и его тензорного пространства в целом. Целью этой работы является закрытие этой теоретической лазурной поверхности.
## Метод
Мы определяем подпространство параметров, оптимально сохраняющее конечные точки, как Banach-субманифолд финитной коденсимальности в пространстве всех возможных контрольных функций. Это достигается при условии несингулярных контрольных функций. Мы выявляем внутреннюю геометрию этого многообразия и определяем тангенсное пространство в рамках этой геометрии. Затем мы проводим анализ последовательного обновления параметров, показывая, что оно может быть интерпретировано как продолжение (deformation) контрольных функций вдоль тензорного пространства.
## Результаты
Мы проводим эксперименты с последовательным обучением Neural ODEs, используя различные наборы данных. Эксперименты показывают, что применение метода TwF приводит к значительному сохранению точности для уже обученных примеров, не допуская "забывания". Мы также измеряем размер тензорного пространства и проверяем его совпадение с теоретическими оценками. Отдельно проводится анализ того, насколько метод TwF приводит к высокой стабильности модели во время последовательного обучения.
## Значимость
Результаты демонстрируют широкое применение TwF в задачах, где запоминание прошлых обучений критично (например, в задачах рекомендаций, динамических системах и серийных моделях). Метод TwF значительно повышает эффективность и надежность нейронных сетей в таких задачах. Этот подход также может быть распространен на другие геометрические фреймворки в обучении сетей, что дает потенциал для улучшения технологий в области машинного обучения.
## Выводы
Мы доказали, что подпространство параметров, сохраняющих конечные точки, формирует Banach-субманифолд, что дает геометрическую основу для TwF. Это позволяет интерпретировать обновление параметров как деформацию вдоль тензорного пространства. Эти теоретические результаты подкрепляют практический подход TwF, по
Abstract
In our earlier work, we introduced the principle of Tuning without Forgetting
(TwF) for sequential training of neural ODEs, where training samples are added
iteratively and parameters are updated within the subspace of control functions
that preserves the end-point mapping at previously learned samples on the
manifold of output labels in the first-order approximation sense. In this
letter, we prove that this parameter subspace forms a Banach submanifold of
finite codimension under nonsingular controls, and we characterize its tangent
space. This reveals that TwF corresponds to a continuation/deformation of the
control function along the tangent space of this Banach submanifold, providing
a theoretical foundation for its mapping-preserving (not forgetting) during the
sequential training exactly, beyond first-order approximation.
Ссылки и действия
Дополнительные ресурсы: