📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Kaito Takanami, Takashi Takahashi, Yoshiyuki Kabashima

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In-context learning (ICL) is a key building block of modern large language models, yet its theoretical mechanisms remain poorly understood. It is particularly mysterious how ICL operates in real-world applications where tasks have a common structure. In this work, we address this problem by analyzing a linear attention model trained on low-rank regression tasks. Within this setting, we precisely characterize the distribution of predictions and the generalization error in the high-dimensional lim...
ID: 2510.04548v1 cond-mat.dis-nn, cs.LG, stat.ML
Авторы:

Rodrigo Carmo Terin

#### Контекст Глубокие нейронайронные сети (DNNs) широко используются в машинном обучении и интеллектуальных технологиях. Однако определение устойчивости и стабильности широких DNNs остается вызовом, возникающим в результате сложности их интерпретации и регулирования. Это затрудняет понимание поведения таких сетей во время обучения и применения. Данная работа формулирует новую математическую модель, позволяющую описать поведение широких DNNs с помощью стохастического поля, связанного с квантовой электродинамикой (QED). Такой подход позволяет упростить модель, связать границы устойчивости с характером широких DNNs и дать новые инструменты для анализа и контроля сетей. #### Метод Методология, представленная в работе, основывается на строительстве топологического фиктивного поля, описывающего поведение DNNs в качестве стохастического квантового поля. Декомпозиция DNNs в модели с помощью фермионных материалов и гравитационных полей позволяет любую широкую DNN представить в виде комбинации физических полей, связанных с квантовой электродинамикой. Для решения задач стабилизации используется техника фиктивного Langevin-времени, чтобы нормализовать гауссовские взаимодействия глубинных сетей. Этот подход позволяет описать различные варианты динамики и стабилизации широких DNNs. #### Результаты Результаты экспериментов показали, что модель широких DNNs, основанная на физической модели квантовой электродинамики, дает точные предсказания поведения устойчивости сетей в зависимости от их ширины и регуляризации. Использованы стандартные многослойные перцептроны, где результаты были подтверждены через симуляции стохастических полей. Использование гауссианской симметрии и методики фиктивных временных интервалов позволило выделить характер широких DNNs и определить границы устойчивости. Кроме того, предложена новая GINN-модель с использованием параметризации величины и фазы весов, что дает гибкость в контроле устойчивости. #### Значимость Результаты работы имеют значительное значение для развития теории глубоких нейронных сетей. Модель стохастического поля дает новый подход к пониманию и контролю устойчивости DNNs в машинном обучении. Также, этот подход может применяться в различных областях, где требуется анализ стабильного поведения нейронных сетей, например, в глубоком обучении, градиентных подъемах и других алгоритмах. GINN, как модель, предоставляет новые инструменты для последовательного мониторинга и регулирования широких DNNs. #### Выводы Выводы работы указывают на успешное применение стохастич
Annotation:
The development of a Euclidean stochastic field-theoretic approach that maps deep neural networks (DNNs) to quantum electrodynamics (QED) with local U(1) symmetry is presented. Neural activations and weights are represented by fermionic matter and gauge fields, with a fictitious Langevin time enabling covariant gauge fixing. This mapping identifies the gauge parameter with kernel design choices in wide DNNs, relating stability thresholds to gauge-dependent amplification factors. Finite-width flu...
ID: 2508.18948v1 hep-th, cond-mat.dis-nn, cs.LG, stat.ML