📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Lluís Arola-Fernández

## Контекст Модели глубокого обучения, особенно текстовые, часто сталкиваются с вопросом, являются ли они простой сквозь-формой их тренировочных данных или возможность развития глубиной интеллектуальных способностей. Однако есть мало физических моделей, которые могли бы объяснить это. Целью данного исследования является раскрытие физической природы такого поведения. Основной мотивацией является развитие физической модели, объясняющей "интуицию" в моделях максимального калибра, которая возникает при критическом балансе предсказания следующего слова и стратегической свободы. Такое поведение может возникнуть в глубоких сетях, подвергающихся методу минд-тюнинга. ## Метод Исследование основывается на применении метода максимального калибра в текстовых моделях. Он включает в себя минимальное принцип минд-тюнинга, который позволяет модели отклониться от локальных минимумов и последовательностей. Эксперименты проводились с разными входными данными, включая случайные прогулки в определенных картах. Эффективная низкомолекулярная теория использовалась для моделирования этих процессов. Основной параметр - "температура" $\lambda$, которая регулирует баланс между предсказанием следующего слова и свободой движения в пространстве путей. ## Результаты Эксперименты показали, что модели во время обучения могут перейти через различные фазы - от простого копирования данных (зависимость от температуры) до разрушающих пути (высокая температура), и к метастабильной стадии интуиции (между ними). Эта стадия характеризуется многомерным поведением, в том числе хистерезисом и многостепенностью. Эта метастабильная фаза эффективно поддерживает новые, целесообразные стратегии, которые модель выявляет сама. Это поведение описывается эффективной низкомолекулярной теорией, которая формализует "интуицию" как метастабильное состояние, возникающее при критическом балансе между меморизацией и размышлением. ## Значимость Набор результатов имеет значительное значение в области глубокого обучения, особенно в текстовых моделях с NLP. Они позволяют понять, как модели могут выходить за рамки простого копирования данных и проявлять интуитивное понимание. Это может привести к развитию новых моделей, которые будут более гибкими и способными к новому. Область применения включает глубокое обучение, машинное обучение и распространенные модели текстов. Основное преимущество заключается в том, что модели могут проявлять индуктивное мышление, что может привести к увеличению качества приложений, таких как генерация текста и
Annotation:
Whether large predictive models merely parrot their training data or produce genuine insight lacks a physical explanation. This work reports a primitive form of intuition that emerges as a metastable phase of learning that critically balances next-token prediction against future path-entropy. The intuition mechanism is discovered via mind-tuning, the minimal principle that imposes Maximum Caliber in predictive models with a control temperature-like parameter $\lambda$. Training on random walks i...
ID: 2508.06477v1 physics.soc-ph, cond-mat.dis-nn, cond-mat.stat-mech, cs.AI, cs.LG