📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 High-Dimensional Learning Dynamics of Quantized Models with Straight-Through Estimator

2025-10-16

Авторы:

Yuma Ichikawa, Shuhei Kashiwamura, Ayaka Sakata

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Quantized neural network training optimizes a discrete, non-differentiable objective. The straight-through estimator (STE) enables backpropagation through surrogate gradients and is widely used. While previous studies have primarily focused on the properties of surrogate gradients and their convergence, the influence of quantization hyperparameters, such as bit width and quantization range, on learning dynamics remains largely unexplored. We theoretically show that in the high-dimensional limit,...

ID: 2510.10693v1 stat.ML, cond-mat.dis-nn, cs.AI, cs.LG, math.ST, stat.TH

arXiv PDF

📄 Attention to Order: Transformers Discover Phase Transitions via Learnability

2025-10-11

Авторы:

Şener Özönder

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Phase transitions mark qualitative reorganizations of collective behavior, yet identifying their boundaries remains challenging whenever analytic solutions are absent and conventional simulations fail. Here we introduce learnability as a universal criterion, defined as the ability of a transformer model containing attention mechanism to extract structure from microscopic states. Using self-supervised learning and Monte Carlo generated configurations of the two-dimensional Ising model, we show th...

ID: 2510.07401v1 cond-mat.mtrl-sci, cond-mat.dis-nn, cs.AI, cs.LG

arXiv PDF

📄 A Spin Glass Characterization of Neural Networks

2025-08-13

Авторы:

Jun Li

## Контекст Нейронные сети (NN) широко применяются в различных областях, от обработки естественного языка до диагностики медицинских изображений. Однако многие их свойства, такие как обучение, гибкость и общепринятость, еще не полностью поняты. Одной из основных проблем является нехватка методов для оценки структуры и поведения индивидуальных экземпляров нейронных сетей без задействования целых контекстов обучения. Отсутствие таких методов ограничивает возможность провести глубокий анализ и диагностику этих средств. Это влечет за собой риски, такие как незаметные уязвимости и недостаточность в ситуациях с плохим обучением. Необходимо развить методы, позволяющие легко оценивать структуру и поведение нейронных сетей на основе их индивидуальных свойств. ## Метод Для исследования структуры нейронных сетей был предложен подход, основанный на статистической механике, а именно на явлении реплика-симметрии-разрыва (RSB) в спин-глазах. Этот подход предполагает конструирование модели типа Hopfield-spin-глаза из данной полносвязной нейронной сети (FNN). Отклики симуляций реплик служат основным дескриптором для FNN. Этот подход позволяет получить конечный спин-глаз, который характеризует FNN, используя для этого только информацию о структуре нейронной сети и без необходимости прохождения обучения. Это дает возможность выявить некоторые комплексные структурные свойства, не охваченные традиционными метриками, такими как потери и точность. ## Результаты Полученные результаты показали, что этот подход может быть использован для выявления скрытых свойств FNN, таких как способность подгонки данных, гибкость и устойчивость к шумам. Экспериментальные исследования проводились на нескольких FNN, включая модели, обученные на различных датасетах. Результаты показали, что данный подход может выделять структуру FNN, которая не видна при использовании традиционных оценок, таких как потери или точность. Таким образом, это дает новые возможности для анализа и диагностики нейронных сетей в ситуациях, когда традиционные метрики не дают полного изображения. ## Значимость Предложенный подход имеет большое значение в различных областях применения нейронных сетей. Он может быть применен для моделирования структуры и выявления уязвимостей в сетях, в том числе для зрелища и проверки моделей в ситуациях, когда данные недостаточно хорошо разделяются, или когда есть риск выхода за рамки обучения. Это также может помочь в ситуациях, где необходимо проверить модели на наличие незаметных уязвимостей, без необходимости проходить тяжелый процесс обучения. Это

Annotation:

This work presents a statistical mechanics characterization of neural networks, motivated by the replica symmetry breaking (RSB) phenomenon in spin glasses. A Hopfield-type spin glass model is constructed from a given feedforward neural network (FNN). Overlaps between simulated replica samples serve as a characteristic descriptor of the FNN. The connection between the spin-glass description and commonly studied properties of the FNN -- such as data fitting, capacity, generalization, and robustne...

ID: 2508.07397v1 cond-mat.dis-nn, cs.AI, cs.LG

arXiv PDF