Architecture-Aware Generalization Bounds for Temporal Networks: Theory and Fair Comparison Methodology

2508.06066v1 cs.LG, cs.AI 2025-08-12
Авторы:

Barak Gahtan, Alex M. Bronstein

Резюме на русском

## Контекст Современные глубокие нейронные сети, такие как Temporal Convolutional Networks (TCNs), достигают высокой точности в прогнозировании последовательных данных. Однако теоретическое понимание их общей способности и ограничений остается недостаточно развитым. Это недостаток становится заметнее при сравнении различных моделей, где зачастую используются несогласованные эффективные обучающие выборки. Это приводит к несоответствию в результатах и снижению доверия к теоретическим анализам. Наша мотивация заключается в развитии теоретических общих ограничений для глубоких временных моделей и в создании нормализованного метода сравнения их эффективности. ## Метод Мы разработали метод оценки общей способности TCN, учитывающий специфику их архитектуры. Базовым элементом является механизм "задержанной обратной связи", который преобразует зависимости в выборке в эффективно независимые с помощью отсечения мелких объемов данных. Для ситуаций, когда выборки последовательно зависимы, мы оптимизируем выборку с использованием метода Блума, чтобы сузить расстояние между теорией и практикой. Для подтверждения метода, мы используем теорему о максимальной эффективности и закрепленные свойства выборки. ## Результаты Мы проводили эксперименты на упрощенных последовательных данных с разными степенями зависимости. Наши результаты показали, что модели TCN могут извлекать пользу из зависимостей в данных, включая ситуации с сильными зависимостями. Неожиданно, сильные зависимости могут привести к более эффективному обучению по сравнению с слабыми, что напротив ожиданий традиционной теории. Мы также показали, что наш метод дает более точные оценки общей способности TCN по сравнению с другими приемами. ## Значимость Наша работа может быть применена в системах, требующих точного прогнозирования на основе последовательных данных, таких как системы мониторинга, моделирования процессов времени и робототехника. Она позволяет оценить и сравнить модели с учетом их внутренней структуры, что улучшает предсказательную точность и уменьшает вероятность ложных срабатываний. Наш результат также открывает путь к более глубокому пониманию связи между теорией и практикой в обучении с учителем на последовательных данных. ## Выводы Мы предложили первые архитектурно ориентированные теоретические ограничения для общей способности TCN и разработали метод сравнения моделей, учитывающий эффективный размер выборки. Эксперименты показали, что зависимости в данных могут быть полезными для обучения, если они управляются правильно. Наша работа мотивирует будущие ис

Abstract

Deep temporal architectures such as Temporal Convolutional Networks (TCNs) achieve strong predictive performance on sequential data, yet theoretical understanding of their generalization remains limited. We address this gap by providing both the first non-vacuous, architecture-aware generalization bounds for deep temporal models and a principled evaluation methodology. For exponentially $\beta$-mixing sequences, we derive bounds scaling as $ O\!\Bigl(R\,\sqrt{\tfrac{D\,p\,n\,\log N}{N}}\Bigr), $ where $D$ is network depth, $p$ kernel size, $n$ input dimension, and $R$ weight norm. Our delayed-feedback blocking mechanism transforms dependent samples into effectively independent ones while discarding only $O(1/\log N)$ of the data, yielding $\sqrt{D}$ scaling instead of exponential, implying that doubling depth requires approximately quadrupling the training data. We also introduce a fair-comparison methodology that fixes the effective sample size to isolate the effect of temporal structure from information content. Under $N_{\text{eff}}=2{,}000$, strongly dependent sequences ($\rho=0.8$) exhibit $\approx76\%$ smaller generalization gaps than weakly dependent ones ($\rho=0.2$), challenging the intuition that dependence is purely detrimental. Yet convergence rates diverge from theory: weak dependencies follow $N_{\text{eff}}^{-1.21}$ scaling and strong dependencies follow $N_{\text{eff}}^{-0.89}$, both steeper than the predicted $N^{-0.5}$. These findings reveal that temporal dependence can enhance learning under fixed information budgets, while highlighting gaps between theory and practice that motivate future research.

Ссылки и действия