Architecture-Aware Generalization Bounds for Temporal Networks: Theory and Fair Comparison Methodology
2508.06066v1
cs.LG, cs.AI
2025-08-12
Авторы:
Barak Gahtan, Alex M. Bronstein
Резюме на русском
## Контекст
Современные глубокие нейронные сети, такие как Temporal Convolutional Networks (TCNs), достигают высокой точности в прогнозировании последовательных данных. Однако теоретическое понимание их общей способности и ограничений остается недостаточно развитым. Это недостаток становится заметнее при сравнении различных моделей, где зачастую используются несогласованные эффективные обучающие выборки. Это приводит к несоответствию в результатах и снижению доверия к теоретическим анализам. Наша мотивация заключается в развитии теоретических общих ограничений для глубоких временных моделей и в создании нормализованного метода сравнения их эффективности.
## Метод
Мы разработали метод оценки общей способности TCN, учитывающий специфику их архитектуры. Базовым элементом является механизм "задержанной обратной связи", который преобразует зависимости в выборке в эффективно независимые с помощью отсечения мелких объемов данных. Для ситуаций, когда выборки последовательно зависимы, мы оптимизируем выборку с использованием метода Блума, чтобы сузить расстояние между теорией и практикой. Для подтверждения метода, мы используем теорему о максимальной эффективности и закрепленные свойства выборки.
## Результаты
Мы проводили эксперименты на упрощенных последовательных данных с разными степенями зависимости. Наши результаты показали, что модели TCN могут извлекать пользу из зависимостей в данных, включая ситуации с сильными зависимостями. Неожиданно, сильные зависимости могут привести к более эффективному обучению по сравнению с слабыми, что напротив ожиданий традиционной теории. Мы также показали, что наш метод дает более точные оценки общей способности TCN по сравнению с другими приемами.
## Значимость
Наша работа может быть применена в системах, требующих точного прогнозирования на основе последовательных данных, таких как системы мониторинга, моделирования процессов времени и робототехника. Она позволяет оценить и сравнить модели с учетом их внутренней структуры, что улучшает предсказательную точность и уменьшает вероятность ложных срабатываний. Наш результат также открывает путь к более глубокому пониманию связи между теорией и практикой в обучении с учителем на последовательных данных.
## Выводы
Мы предложили первые архитектурно ориентированные теоретические ограничения для общей способности TCN и разработали метод сравнения моделей, учитывающий эффективный размер выборки. Эксперименты показали, что зависимости в данных могут быть полезными для обучения, если они управляются правильно. Наша работа мотивирует будущие ис
Abstract
Deep temporal architectures such as Temporal Convolutional Networks (TCNs)
achieve strong predictive performance on sequential data, yet theoretical
understanding of their generalization remains limited. We address this gap by
providing both the first non-vacuous, architecture-aware generalization bounds
for deep temporal models and a principled evaluation methodology.
For exponentially $\beta$-mixing sequences, we derive bounds scaling as $
O\!\Bigl(R\,\sqrt{\tfrac{D\,p\,n\,\log N}{N}}\Bigr), $ where $D$ is network
depth, $p$ kernel size, $n$ input dimension, and $R$ weight norm. Our
delayed-feedback blocking mechanism transforms dependent samples into
effectively independent ones while discarding only $O(1/\log N)$ of the data,
yielding $\sqrt{D}$ scaling instead of exponential, implying that doubling
depth requires approximately quadrupling the training data.
We also introduce a fair-comparison methodology that fixes the effective
sample size to isolate the effect of temporal structure from information
content. Under $N_{\text{eff}}=2{,}000$, strongly dependent sequences
($\rho=0.8$) exhibit $\approx76\%$ smaller generalization gaps than weakly
dependent ones ($\rho=0.2$), challenging the intuition that dependence is
purely detrimental. Yet convergence rates diverge from theory: weak
dependencies follow $N_{\text{eff}}^{-1.21}$ scaling and strong dependencies
follow $N_{\text{eff}}^{-0.89}$, both steeper than the predicted $N^{-0.5}$.
These findings reveal that temporal dependence can enhance learning under fixed
information budgets, while highlighting gaps between theory and practice that
motivate future research.
Ссылки и действия
Дополнительные ресурсы: