📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Yuma Ichikawa, Shuhei Kashiwamura, Ayaka Sakata
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Quantized neural network training optimizes a discrete, non-differentiable
objective. The straight-through estimator (STE) enables backpropagation through
surrogate gradients and is widely used. While previous studies have primarily
focused on the properties of surrogate gradients and their convergence, the
influence of quantization hyperparameters, such as bit width and quantization
range, on learning dynamics remains largely unexplored. We theoretically show
that in the high-dimensional limit,...
Авторы:
Şener Özönder
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Phase transitions mark qualitative reorganizations of collective behavior,
yet identifying their boundaries remains challenging whenever analytic
solutions are absent and conventional simulations fail. Here we introduce
learnability as a universal criterion, defined as the ability of a transformer
model containing attention mechanism to extract structure from microscopic
states. Using self-supervised learning and Monte Carlo generated configurations
of the two-dimensional Ising model, we show th...
Авторы:
Jun Li
## Контекст
Нейронные сети (NN) широко применяются в различных областях, от обработки естественного языка до диагностики медицинских изображений. Однако многие их свойства, такие как обучение, гибкость и общепринятость, еще не полностью поняты. Одной из основных проблем является нехватка методов для оценки структуры и поведения индивидуальных экземпляров нейронных сетей без задействования целых контекстов обучения. Отсутствие таких методов ограничивает возможность провести глубокий анализ и диагностику этих средств. Это влечет за собой риски, такие как незаметные уязвимости и недостаточность в ситуациях с плохим обучением. Необходимо развить методы, позволяющие легко оценивать структуру и поведение нейронных сетей на основе их индивидуальных свойств.
## Метод
Для исследования структуры нейронных сетей был предложен подход, основанный на статистической механике, а именно на явлении реплика-симметрии-разрыва (RSB) в спин-глазах. Этот подход предполагает конструирование модели типа Hopfield-spin-глаза из данной полносвязной нейронной сети (FNN). Отклики симуляций реплик служат основным дескриптором для FNN. Этот подход позволяет получить конечный спин-глаз, который характеризует FNN, используя для этого только информацию о структуре нейронной сети и без необходимости прохождения обучения. Это дает возможность выявить некоторые комплексные структурные свойства, не охваченные традиционными метриками, такими как потери и точность.
## Результаты
Полученные результаты показали, что этот подход может быть использован для выявления скрытых свойств FNN, таких как способность подгонки данных, гибкость и устойчивость к шумам. Экспериментальные исследования проводились на нескольких FNN, включая модели, обученные на различных датасетах. Результаты показали, что данный подход может выделять структуру FNN, которая не видна при использовании традиционных оценок, таких как потери или точность. Таким образом, это дает новые возможности для анализа и диагностики нейронных сетей в ситуациях, когда традиционные метрики не дают полного изображения.
## Значимость
Предложенный подход имеет большое значение в различных областях применения нейронных сетей. Он может быть применен для моделирования структуры и выявления уязвимостей в сетях, в том числе для зрелища и проверки моделей в ситуациях, когда данные недостаточно хорошо разделяются, или когда есть риск выхода за рамки обучения. Это также может помочь в ситуациях, где необходимо проверить модели на наличие незаметных уязвимостей, без необходимости проходить тяжелый процесс обучения. Это
Annotation:
This work presents a statistical mechanics characterization of neural
networks, motivated by the replica symmetry breaking (RSB) phenomenon in spin
glasses. A Hopfield-type spin glass model is constructed from a given
feedforward neural network (FNN). Overlaps between simulated replica samples
serve as a characteristic descriptor of the FNN. The connection between the
spin-glass description and commonly studied properties of the FNN -- such as
data fitting, capacity, generalization, and robustne...