Provable Generalization in Overparameterized Neural Nets

2508.17256v1 cs.LG, cs.AI, stat.ML 2025-08-27
Авторы:

Aviral Dhingra

Резюме на русском

#### Контекст В последние годы стали популярны модели глубокого обучения, которые обладают значительным перевесом в параметрах по сравнению с размером обучающихся данных. Несмотря на это, эти модели демонстрируют выдающиеся результаты в задачах общего языкового понимания. Традиционные меры сложности, такие как VC-размер или оценки PAC-Bayes, часто оказываются нерелевантными в таком "overparameterized" режиме. Это отступление представляет собой значительную проблему: классические подходы не могут объяснить успех таких моделей. Моя работа стремится развить альтернативный подход к изучению этой проблемы, основываясь на понятии "эффективного размера" в моделях с автопредсказанием. Я предлагаю использовать ранг входного вектора в качестве новой меры сложности, которая может учитывать спектральные свойства моделей, а не просто их размер. #### Метод Мой подход основывается на анализе спектра входного вектора в модели attention-based. Я разработал метод, позволяющий оценивать эффективный ранг attention-матриц, который отражает "функциональный размер" модели. Эта мера отличается от традиционных, так как не определяется по количеству параметров, а строится на основе спектральной структуры входных данных. Основным элементом анализа является вычисление нормы второго градиента, который позволяет проверить эффективность новой меры. Я также рассматриваю архитектуру модели, в которой attention-матрицы являются центральным элементом, и использую методы спектрального анализа для подтверждения моего подхода. #### Результаты Я провел эксперименты на широко известных данных, включая наборы для обучения языковых моделей. Мои результаты показали, что эффективный ранг attention-матриц соотносится с тем, как модели обучаются и как они масштабируются с ростом размера обучающихся данных. Например, в модели Transformer я обнаружил, что эффективный ранг приближается к логарифму размера обучающих данных, что хорошо соответствует реальным эмпирическим законам генерализации. Эти результаты подтверждают, что ранг входного вектора может быть лучшим индикатором генерализации, чем сам размер модели. #### Значимость Результаты моего исследования имеют потенциал для развития теоретических основ обучения моделей с большим числом параметров. Они подтверждают, что не только параметры, но и спектральные свойства моделей играют ключевую роль в генерализации. Это может иметь значительные последствия для разработки более эффективных моделей, которые могут обучаться быстрее и лучше адаптироваться к новым данным. Мои находки также открывают пути для дальнейшего исследования

Abstract

Deep neural networks often contain far more parameters than training examples, yet they still manage to generalize well in practice. Classical complexity measures such as VC-dimension or PAC-Bayes bounds usually become vacuous in this overparameterized regime, offering little explanation for the empirical success of models like Transformers. In this work, I explore an alternative notion of capacity for attention-based models, based on the effective rank of their attention matrices. The intuition is that, although the parameter count is enormous, the functional dimensionality of attention is often much lower. I show that this quantity leads to a generalization bound whose dependence on sample size matches empirical scaling laws observed in large language models, up to logarithmic factors. While the analysis is not a complete theory of overparameterized learning, it provides evidence that spectral properties of attention, rather than raw parameter counts, may be the right lens for understanding why these models generalize.

Ссылки и действия