Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

2509.22445v1 cs.LG, cs.AI, cs.CL 2025-09-30

Авторы:

Peter Shaw, James Cohan, Jacob Eisenstein, Kristina Toutanova

Резюме на русском

## Контекст Трансформеры — популярная архитектура нейросетей, применяемая в различных областях, таких как текстовый пониманий, перевода и синтеза речи. Однако их обучение и оптимизация оставляют значительные проблемы, в частности, узкое соотношение сложности модели и ее общественной области применения. Минимум Оккама — принцип, который используется для снижения сложности моделей, но применить его к трансформерам сложно из-за отсутствия общепринятой меры сложности моделей. Это приводит к необходимости разработки новых методов, которые могут более эффективно учитывать сложность и сжатие моделей. ## Метод Работа предлагает новый подход, основанный на теории Колмогорова и принципе МДЛ (минимум описательной длины). Основной идеей является поиск целей оптимизации, которые обеспечивают максимальное сжатие данных с минимальной сложностью модели. Для этого авторы предлагают адаптивную цель оптимизации, основанную на гауссовской смеси. Она позволяет эффективно отражать сложность модели и сжать данные. Эта цель является разностным целевым функционалом, который гарантирует сжатие в некоторых ограниченных ресурсных условиях. ## Результаты Авторы проводили эксперименты на текстовой задаче Категоризации Семантики. Они применяли найденные цели оптимизации к трансформерам и показали, что такие модели могут достичь более эффективного сжатия и улучшенной общей области применения. Однако они также отметили, что обычные оптимизаторы не всегда могут найти такие решения, что указывает на необходимость развития более сложных методов оптимизации. ## Значимость Результаты демонстрируют значительный потенциал нового подхода в области обучения трансформеров. Он может быть использован для создания моделей с более высоким компрессионным потенциалом и улучшенной генерализацией. Это может иметь значительное влияние на развитие нейросетей в области текстового понимания, перевода и других задач. ## Выводы Работа представляет значительный шаг вперед в теории и практике обучения трансформеров. Она продемонстрировала, что модели могут быть значительно сжаты с помощью новых оптимизационных целей. Будущие исследования будут сфокусированы на развитии более эффективных методов оптимизации и расширении применений этого подхода к другим моделям и задачам.

Abstract

The Minimum Description Length (MDL) principle offers a formal framework for applying Occam's razor in machine learning. However, its application to neural networks such as Transformers is challenging due to the lack of a principled, universal measure for model complexity. This paper introduces the theoretical notion of asymptotically optimal description length objectives, grounded in the theory of Kolmogorov complexity. We establish that a minimizer of such an objective achieves optimal compression, for any dataset, up to an additive constant, in the limit as model resource bounds increase. We prove that asymptotically optimal objectives exist for Transformers, building on a new demonstration of their computational universality. We further show that such objectives can be tractable and differentiable by constructing and analyzing a variational objective based on an adaptive Gaussian mixture prior. Our empirical analysis shows that this variational objective selects for a low-complexity solution with strong generalization on an algorithmic task, but standard optimizers fail to find such solutions from a random initialization, highlighting key optimization challenges. More broadly, by providing a theoretical framework for identifying description length objectives with strong asymptotic guarantees, we outline a potential path towards training neural networks that achieve greater compression and generalization.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

Multi-LLM Collaboration for Medication Recommendation

Network of Theseus (like the ship)

SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

Mode-Conditioning Unlocks Superior Test-Time Scaling

Навигация