📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Zachary Terner, Alexander Petersen, Yuedong Wang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We introduce Smart Bayes, a new classification framework that bridges generative and discriminative modeling by integrating likelihood-ratio-based generative features into a logistic-regression-style discriminative classifier. From the generative perspective, Smart Bayes relaxes the fixed unit weights of Naive Bayes by allowing data-driven coefficients on density-ratio features. From a discriminative perspective, it constructs transformed inputs as marginal log-density ratios that explicitly qua...
Авторы:
Ryoya Fukasaku, Yutaro Kabata, Akifumi Okuno
## Контекст
Перцептрон — простой модель нейронной сети, которая используется для решения задач классификации и регрессии. Одна из основных задач в обучении таких моделей — минимизация квадратичной ошибки с регуляризацией (ridge-regularized mean squared error, RR-MSE). Традиционные методы, такие как градиентный спуск, не всегда эффективны в решении этой задачи, особенно при высоких размерностях. На сегодняшний день недостаточно хорошо понятны структура и свойства решений этой задачи, что ограничивает возможности для понимания и улучшения алгоритмов обучения.
## Метод
В статье предлагается алгебраический подход для решения задачи RR-MSE в релаксационных перцептронах (ReLU). Авторы отмечают, что квадратичная ошибка с регуляризацией является пьезополиномом от весовых коэффициентов сети. Это свойство используется для разработки метода Divide-Enumerate-Merge (DEM). Метод делит пространство параметров на области, в которых RR-MSE является полиномом, и направляет внимание на точное решение каждой части. Далее, полученные решения объединяются в общее решение. Такой подход позволяет не только находить локальные минимумы, но и выявлять высокоразмерные минимумы, такие как кривые и поверхности.
## Результаты
Авторы применяют свой подход к минимальным релаксационным перцептронам (minimal ReLU neural networks) с небольшим числом скрытых слоев. Используя компьютерные алгебраические инструменты, они успешно вычисляют все локальные минимумы RR-MSE в этих моделях. Эксперимент показывает, что метод DEM эффективен в идентификации всех локальных минимумов, включая высокоразмерные. Однако, ввиду высокой сложности вычислений, подход ограничивается небольшими моделями.
## Значимость
Предложенный подход может быть применен в обучении нейронных сетей, чтобы получить глобальные решения задачи RR-MSE. Он имеет потенциал для улучшения точности и стабильности методов обучения. Также, способность идентификации высокоразмерных минимумов делает этот подход уникальным в сравнении с традиционными методами. Несмотря на высокую сложность, результаты доказывают многочисленные преимущества этого подхода, особенно для малых моделей.
## Выводы
Алгебраический подход, описанный в статье, доказывает свою эффективность в решении задачи RR-MSE в релаксационных перцептронах. Он успешно раскрывает структуру решений и открывает новые возможности для анализа и улучшения нейронных сетей. Несмотря на высокую сложность, данный подход может быть расширен на более крупные модели в будущих исследованиях. Это открывает путь к более глубокому пониманию и улучшению нейронных сетей.
Annotation:
This paper investigates a perceptron, a simple neural network model, with
ReLU activation and a ridge-regularized mean squared error (RR-MSE). Our
approach leverages the fact that the RR-MSE for ReLU perceptron is piecewise
polynomial, enabling a systematic analysis using tools from computational
algebra. In particular, we develop a Divide-Enumerate-Merge strategy that
exhaustively enumerates all local minima of the RR-MSE. By virtue of the
algebraic formulation, our approach can identify not on...
Авторы:
Khai Nguyen
#### Контекст
Оптимальное транспортное погрешность (Optimal Transport, OT) — это важное понятие в теории меры и статистике, которое позволяет измерять расстояния и корреляции между двумя распределениями. Однако, стандартная OT часто сталкивается с проблемами вычислительной сложности, особенно при работе с высокомерными данными. Sliced Optimal Transport (SOT) — это подход, который использует транспорт в одномерном пространстве, чтобы приобрести больше вычислительной эффективности. Этот подход основывается на использовании целого ряда одномерных распределений для преобразования и сравнения более сложных мер. Несмотря на то, что SOT значительно упрощает вычисления, он сохраняет геометрическую структуру и мощь традиционного OT. Необходимость в SOT возникает из-за роста объема данных и сложности задач в машинном обучении, статистике и других дисциплинах.
#### Метод
SOT основывается на одномерной оптимальной транспортной задаче, которая легко решается. Главная идея заключается в том, чтобы разбить данные на подпространства размерности одной (например, вектора-столбца) и использовать одномерные распределения для вычисления дистанций. Эта техника обычно привносит сильные инварианты в многомерные данные, что позволяет их легко сравнивать. Основные инструменты, используемые в SOT, — это **Radon-преобразование**, которое преобразует меры в одномерные, и **Monte Carlo-эстимации**, которая позволяет вычислять скопированные меры. В SOT также используются сложные методы, такие как **non-linear slicing**, **weighted slicing** и **variational problems**, которые позволяют улучшить точность и скорость вычислений.
#### Результаты
В рамках экспериментов SOT был применен к многочисленным задачам, включая расчет расстояний, barycenters (средних распределений), оценивание градиентных потоков, вычисление керов и трансформаций для распределений. Набор данных в экспериментах включал как синтетические данные, так и реальные данные из машинного обучения, графического дизайна и компьютерного зрения. Результаты показали, что SOT не только значительно сокращает время расчета, но и сохраняет высокую точность по сравнению с классическим OT. Например, в задаче сопоставления распределений данных в графическом дизайне, SOT дал результаты, которые были близки к классическому OT, но с меньшим расходом ресурсов.
#### Значимость
SOT был применен в различных областях, включая машинное обучение, математическую статистику, компьютерные графики и компьютерное зрение. Он показал свою эффективность в задачах, таких как расчет расстояний между распределениями, вычисление barycenters, кластеризация данных и преобразования. Основное преиму
Annotation:
Sliced Optimal Transport (SOT) is a rapidly developing branch of optimal
transport (OT) that exploits the tractability of one-dimensional OT problems.
By combining tools from OT, integral geometry, and computational statistics,
SOT enables fast and scalable computation of distances, barycenters, and
kernels for probability measures, while retaining rich geometric structure.
This paper provides a comprehensive review of SOT, covering its mathematical
foundations, methodological advances, computat...