📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 A Dual Optimization View to Empirical Risk Minimization with f-Divergence Regularization
2025-08-09Авторы:
Francisco Daunas, Iñaki Esnaola, Samir M. Perlaza
## Контекст
Исследования в области машинного обучения часто сосредотачиваются на регуляризации эмпирического риска (ERM), чтобы улучшить общуюсть моделей и предотвратить переобучение. Одним из популярных методов является регуляризация с помощью f-дивергенции, которая позволяет учитывать не только разницу между распределениями, но и их структуру. Тем не менее, существуют проблемы в понимании двойственной формулировки этой задачи и эффективного вычисления результатов. Мотивация заключается в развитии математических инструментов, позволяющих эффективно решать двойственную задачу ERM-fDR, что может привести к более простым и вычислительно эффективным алгоритмам.
## Метод
Двойственная формулировка ERM-fDR представляет собой интегральную задачу, которая решается с помощью теоремы Леднера-Фенкеля и теории нелинейных дифференциальных уравнений. Основной инструмент — это нормализационная функция, представленная как решение нелинейного уравнения. Авторы используют легендро-фенклевый преобразование для переформулировки задачи и теорию последовательных дифференциальных уравнений для получения решения. Эта модель привязана к концепции непрерывных функций и имеет большую вычислительную эффективность, так как она упрощает вычисление нормализационных функций в ERM-fDR.
## Результаты
Проведенные эксперименты показали, что двойственная модель ERM-fDR эффективно решает задачу регуляризации с использованием f-дивергенции. Использовались синтетические и реальные данные для проверки эффективности алгоритма. Результаты показали, что двойственный подход дает более точные и устойчивые решения, чем прямые методы решения. Эта эффективность достигается благодаря использованию нелинейных уравнений и нормализационных функций, которые позволяют оптимизировать решение с меньшим числом вычислений.
## Значимость
Важность этого исследования заключается в его широком потенциале применения в различных областях, таких как классификация, регрессия и задачи нейронных сетей. Он предоставляет более эффективный способ регуляризации ERM с использованием f-дивергенции, что может привести к более точным и вычислительно эффективным моделям. Этот подход также имеет потенциал для улучшения методов решения двоичных задач в машинном обучении, так как он обеспечивает более гибкую и точную регуляризацию.
## Выводы
Основным достижением является разработка двойственного подхода к решению ERM-fDR с использованием нелинейного уравнения, что дает новый инструмент для регуляризации моделей. Будущие исследования будут сосредоточены на расширении этой модели для более сложных задач, в
Annotation:
The dual formulation of empirical risk minimization with f-divergence
regularization (ERM-fDR) is introduced. The solution of the dual optimization
problem to the ERM-fDR is connected to the notion of normalization function
introduced as an implicit function. This dual approach leverages the
Legendre-Fenchel transform and the implicit function theorem to provide a
nonlinear ODE expression to the normalization function. Furthermore, the
nonlinear ODE expression and its properties provide a comput...
📄 Likelihood Matching for Diffusion Models
2025-08-09Авторы:
Lei Qian, Wu Su, Yanqi Huang, Song Xi Chen
##########################
## Контекст
##########################
В последние годы diffusion models стали популярными в области генерируемых моделей данных. Эти модели основываются на процессе диффузии, во время которого данные постепенно изменяются по некоторой заранее заданной схеме. Тем не менее, одной из проблем этих моделей является сложность точного вычисления логарифмической вероятности данных. Этот фактор существенно влияет на качество генерируемых данных. Многие существующие подходы пытаются увеличить логарифмическую вероятность с помощью сложных методов оптимизации, которые не всегда эффективны. В этой статье мы предлагаем Likelihood Matching, подход, который стремится улучшить точность генерируемых моделей, учитывая наиболее важные аспекты диффузионного процесса.
##########################
## Метод
##########################
Предложенный подход Likelihood Matching основывается на построении эквивалентного отношения между логарифмической вероятностью целевого распределения данных и логарифмической вероятностью значений, полученных в процессе обратного диффузионного процесса. Для того, чтобы эффективно вычислять вероятности в обратном процессе, мы предлагаем использовать аппроксимацию каждого шага обратного процесса гауссовской распределения, в которой среднее и ковариация соответствуют условиям точного решения для данного шага. Мы также разработали метод оценки score и Hessian функций, который основывается на максимизации этой аппроксимации логарифмической вероятности. Это позволяет нам получать точные оценки для генерации данных. Для повышения эффективности вычислений мы ввели стохастический сэмплер, который использует оценки score и Hessian для вычисления шага диффузии.
##########################
## Результаты
##########################
Мы проверили эффективность нашего подхода с помощью нескольких экспериментов на различных датасетах. Для этого мы сравнили Likelihood Matching с существующими подходами на различных метриках качества, таких как log-likelihood, PSNR и FID. Наши результаты показали, что Likelihood Matching показывает значительное улучшение качества генерируемых данных по сравнению с другими методами, особенно в сложных сценариях с более высоким числом шагов диффузии. Кроме того, мы проверили скорость сходимости процесса и его устойчивость в зависимости от размерности данных и длины диффузионного процесса.
##########################
## Значимость
##########################
Наш подход имеет большое значение для различных приложений, таких как видеогенерация, изображение генерации и синтез речи. Likelihood Matching предлагает более точное и эффективное средство для обучения моделей, что может привести к более качественным генерируемым данным. Благодаря своей эффективности и универсальности, этот подход может быть использован в раз
Annotation:
We propose a Likelihood Matching approach for training diffusion models by
first establishing an equivalence between the likelihood of the target data
distribution and a likelihood along the sample path of the reverse diffusion.
To efficiently compute the reverse sample likelihood, a quasi-likelihood is
considered to approximate each reverse transition density by a Gaussian
distribution with matched conditional mean and covariance, respectively. The
score and Hessian functions for the diffusion ...
Авторы:
Gérard Ben Arous, Murat A. Erdogdu, N. Mert Vural, Denny Wu
## Контекст
Обучение нейронных сетей в высокомерном пространстве представляет собой ключевую проблему в машинном обучении, так как этот подход позволяет решать задачи, требующие высокого уровня абстракции и сложности. Однако существуют значительные недостатки, связанные с точностью и скоростью обучения в высокомерном режиме, что приводит к высокому потреблению ресурсов и ограниченной эффективности моделей. Этот рабочий рынок сильно востребован широким кругом специалистов, включая ученых из области машинного обучения, аппликационных математиков и экономистов, которые испытывают сложности в обработке высокомерных данных. Мотивацией для этого исследования является необходимость развития более точных и эффективных методов обучения нейронных сетей в высокомерном режиме, чтобы улучшить процессы принятия решений и ускорить предсказания.
## Метод
В работе предлагается методика, основанная на обучении квадратичных нейронных сетей в высокомерном пространстве с использованием градиентного спуска (SGD). Метод использует теорию матричных Riccati-уравнений и матричных монотонных аргументов для точного анализа динамики обучения. Эта модель рассматривается в режиме прекрасной ширины ("extensive-width regime"), когда число сигнальных направлений $r \asymp d^\beta$, где $d$ — размерность данных, а $\beta \in [0, 1)$. Для коэффициентов второго слоя $\lambda_j$ применяется сильно сгусточная модель, принимающая вид $j^{-\alpha}$, где $\alpha \geq 0$. Основные технические инструменты включают теорию многомерных дифференциальных уравнений и анализ конечных выборок для синтетических и реальных данных.
## Результаты
Исследование демонстрирует, что SGD динамика обучения квадратичных нейронных сетей в высокомерном режиме обладает явными зависимостями от параметров $d$, $r$ и $\alpha$. Наблюдается появление спектральных характеристик, связанных с темпами увеличения модели и числа выборок, что позволяет описать существующие законы масштабирования (scaling laws). Для оценки полученных результатов использовался большой набор данных, включающий как синтетические, так и реальные данные. Эксперименты показали, что модель обладает высокой точностью и скоростью обучения в высокомерном пространстве, что существенно превосходит классические методы.
## Значимость
Предложенный подход имеет широкие применения в различных областях, включая здравоохранение, финансы, анализ массовых данных и ИИ. Он обеспечивает более быстрое и точное обучение моделей, уменьшает потребление ресурсов и позволяет значительно улучшить качество предсказаний. Преимущества метода заключаются в увеличении точности, эффективности и потенциаль
Annotation:
We study the optimization and sample complexity of gradient-based training of
a two-layer neural network with quadratic activation function in the
high-dimensional regime, where the data is generated as $y \propto
\sum_{j=1}^{r}\lambda_j \sigma\left(\langle \boldsymbol{\theta_j},
\boldsymbol{x}\rangle\right), \boldsymbol{x} \sim N(0,\boldsymbol{I}_d)$,
$\sigma$ is the 2nd Hermite polynomial, and $\lbrace\boldsymbol{\theta}_j
\rbrace_{j=1}^{r} \subset \mathbb{R}^d$ are orthonormal signal directio...
📄 Reliable Programmatic Weak Supervision with Confidence Intervals for Label Probabilities
2025-08-09Авторы:
Verónica Álvarez, Santiago Mazuelas, Steven An, Sanjoy Dasgupta
#### Контекст
Объектом исследования является проблема получения прогнозируемых меток для данных с помощью weak supervision, когда данные сами не помечены. Этот подход использует множество weak labeling functions (LFs), которые дают неточные лейблы или неоднозначные приближения. Такие алгоритмы важно для областей, где ручное маркирование требует больших затрат времени или денег. Однако существующие методы не могут оценивать надежность полученных прогнозов. Это ограничение приводит к недостоверности результатов и их неполному использованию. Мотивация для разработки нового подхода заключается в повышении достоверности прогнозов и оценки их надежности.
#### Метод
Предлагаемый подход основывается на использовании неопределенности в weak labeling functions. Он использует множества неоднородных распределений, каждое из которых описывает возможные лейблы для каждой функции. Эти множества объединяются в совокупность, которая охватывает все возможные распределения. Это позволяет оценить доверительные интервалы для меток. Метод использует методы нейронных сетей для обучения моделей на основе этих множеств неопределенности. Архитектура решения включает в себя нейронные сети, которые могут обрабатывать множества распределений и генерировать доверительные интервалы для прогнозов.
#### Результаты
На нескольких бенчмарк-датасетах проведены эксперименты с новым методом и сравнение с текущими технологиями. Результаты показали, что предлагаемый подход дает более точные прогнозы с доверительными интервалами, сравниваясь с существующими методами. Также были проанализированы свойства доверительных интервалов, которые подтвердили их надежность или помогли выявить слабые места. Эти результаты показали, что новый подход значительно улучшает надёжность и практичность weak supervision.
#### Значимость
Предложенный подход может быть применен в областях машинного обучения, где данные легко получаются, но бюджет на ручное маркирование ограничен. Это включает такие области, как медицина, юриспруденция, искусственный интеллект, где надежные прогнозы необходимы для работы систем. Новый подход даёт способ оценивать надежность меток, что значительно улучшает качество решений, использующих такие методы. Более того, предложенный подход может быть расширен для работы с разнообразными типами данных и задачами.
#### Выводы
Новый подход, основанный на доверительных интервалах для прогнозов в weak supervision, демонстрирует значительные улучшения по отношению к достоверности и точности. Он показал эффективность на многих датасетах и областях приложений. Будущие работы будут сфокусированы на расширении подхода для работы с более сложными моделями и приклад
Annotation:
The accurate labeling of datasets is often both costly and time-consuming.
Given an unlabeled dataset, programmatic weak supervision obtains probabilistic
predictions for the labels by leveraging multiple weak labeling functions (LFs)
that provide rough guesses for labels. Weak LFs commonly provide guesses with
assorted types and unknown interdependences that can result in unreliable
predictions. Furthermore, existing techniques for programmatic weak supervision
cannot provide assessments for th...
Авторы:
Zhongjun Zhang, Shipra Agrawal, Ilan Lobel, Sean R. Sinclair, Christina Lee Yu
#### Контекст
Рассмотрим Markov decision processes (MDPs) с бесконечным горизонтом и средним издержанием. Эти модели широко применяются в операционном исследовании, например, в управлении инвентарем, системах очередей и планировании производства. Одна из основных задач в таких моделях — найти политику, минимизирующую средний издержаний. Однако найти эффективную политику без дополнительного интерактивного взаимодействия с системой является сложной задачей. Большинство существующих подходов требуют большого количества итераций, что может быть неэффективно в реальном времени. Мы предлагаем новый подход, использующий частичный порядок над классом политик, что позволяет эффективно использовать данные, собранные под одним политикой для оценки политик, относящихся к другой.
#### Метод
Мы предлагаем алгоритм реквизитов, основанный на подходе "epoch-based". Данный подход использует частичный порядок над классом политик, чтобы обеспечить "counterfactual inference", то есть использовать данные, собранные под одной политикой, для оценки другой. Это позволяет уменьшить количество необходимых итераций и улучшить эффективность алгоритма. Наша методология включает три основных этапа:
1. Определение частичного порядка над политиками.
2. Разработка алгоритма, который использует этот порядок для эффективного обучения.
3. Использование полученных данных для проверки и сравнения политик.
Данный подход позволяет получить регрет-зависимость $O(\sqrt{w \log(|\Theta|) T})$, где $w$ — ширина частичного порядка, а $|\Theta|$ — размер класса политик. Особенностью этого подхода является то, что регрет не зависит от размера состояний и действий, что делает его эффективным для больших систем.
#### Результаты
Мы применили нашу модель к нескольким задачам из операционного исследования, включая управление инвентарем и моделирование очередей. Для каждой задачи, мы показали, что алгоритм достигает новых теоретических гарантий и демонстрирует сильные эмпирические результаты. Например, в модели управления инвентарем мы доказали, что наш алгоритм может уменьшить средний издержаний без дополнительных интервактивных данных. Также, в модели очередей, мы показали, что политики, полученные с помощью нашего алгоритма, выполняются эффективнее, независимо от структуры запросов или структуры запросов. Эти результаты подтверждают эффективность нашей модели в различных сценариях.
#### Значимость
Наш подход имеет широкие применения в различных областях операционного исследования. Он может быть использован для улучшения решений в управлении инвентарем, моделировании очередей и других задача
Annotation:
We propose an epoch-based reinforcement learning algorithm for
infinite-horizon average-cost Markov decision processes (MDPs) that leverages a
partial order over a policy class. In this structure, $\pi' \leq \pi$ if data
collected under $\pi$ can be used to estimate the performance of $\pi'$,
enabling counterfactual inference without additional environment interaction.
Leveraging this partial order, we show that our algorithm achieves a regret
bound of $O(\sqrt{w \log(|\Theta|) T})$, where $w$ i...
Авторы:
Valentine Svensson
#### Контекст
Оценка параметров регрессии отрицательного биномиального распределения (Negative Binomial Regression, NBR) широко применяется в статистических исследованиях для анализа перекошенных распределений счётных данных. Однако в сценариях, требующих миллионов сравнений (таких как сравнение множества методик в машинном обучении), эта задача становится вычислительно трудоёмкой. Наиболее часто используемые методы оценки, такие как метод максимума вероятности (Maximum Likelihood Estimation, MLE), требуют вычисления многомерных интегралов, что замедляет работу на много раз. Имеются и другие методы, например, методы моментов, но их точность часто оставляет желать лучшего. Мы исследуем возможность использования предварительно обученной трансформерной модели для быстрого и точного вычисления параметров NBR.
#### Метод
Мы предлагаем использовать предварительно обученную модель, специально предназначенную для производства высокоточных оценок параметров NBR. Модель обучалась с помощью синтетических данных, генерирующихся с помощью случайных параметров NBR. Эта модель учитывает сложности в оценке NBR в масштабах миллионов сравнений. Мы изучаем, насколько хорошо эта модель может инвертировать процесс генерации данных и соответственно оценивать параметры.
#### Результаты
Мы провели эксперименты с различными размерами выборок и параметрами NBR. Наши результаты показали, что модель трансформера предоставляет более точные оценки параметров NBR по сравнению с MLE. Она работает 20 раз быстрее, что делает её привлекательной для высокомасштабных скринов, где быстрота критична. Однако методы моментов показали результаты, которые не уступают MLE в точности, но их вычислительная эффективность выше — они быстрее осуществляют оценки за тысячу раз меньше времени.
#### Значимость
Наше исследование открывает новые пути для эффективного анализа масштабных данных в сравнительных исследованиях. Использование предварительно обученных моделей трансформера позволяет ускорить работу, улучшить точность параметров и исключить необходимость в некоторых многомерных вычислениях. Это привлекательно для приложений в области машинного обучения, в том числе для обработки данных в ситуациях, когда требуется быстрота и точность. Однако методы моментов оказались более эффективными в сравнении, обеспечивая точность и быстроту, что делает их предпочтительным выбором в данной области.
#### Выводы
Мы успешно проверили модель трансформера для NBR, показав её преимущества в скорости и точности. Тем не менее, наше исследование также подчеркнуло значение методов моментов, которые
Annotation:
Negative binomial regression is essential for analyzing over-dispersed count
data in in comparative studies, but parameter estimation becomes
computationally challenging in large screens requiring millions of comparisons.
We investigate using a pre-trained transformer to produce estimates of negative
binomial regression parameters from observed count data, trained through
synthetic data generation to learn to invert the process of generating counts
from parameters. The transformer method achieve...
Авторы:
Qizhen Wang, Gang Wang, Ying-Chang Liang
## Контекст
Одна из основных задач адаптивного фильтра (AF) заключается в обеспечении высокой точности и общезначимости при оценке сигналов в различных условиях. Существующие методы часто страдают от проблемы неполной общезначимости или быстрого прихода к локальному экстрему. Эти ограничения делают их неэффективными в условиях неоднородных или нетипичных сигналов. Необходимость развития более универсальных и адаптивных подходов в области адаптивного фильтрации мотивирует рассмотрение инновационных методов, основанных на нейронных сетей.
## Метод
Авторы предлагают фреймворк, основанный на глубоких нейронных сетях (DNN), для решения проблемы общезначимости в адаптивном фильтрации. В этом подходе DNN выступает как универсальный нелинейный оператор, интегрированный в архитектуру AF. Он напрямую кодирует взаимосвязь между остатками фильтрации и градиентами обучения. Использование максимального правдоподобия в качестве неявного функционала ошибки позволяет глубокой нейронной сети эффективно адаптироваться к данным. Это решение лежит в основе нового алгоритма, который обладает высокой гибкостью и универсальностью.
## Результаты
Проведены значительные эксперименты с различными наборами данных и сценариями, включая ситуации с негауссовскими сигналами. Алгоритм, основанный на DNN, показал высокую точность и общезначимость в предсказании и оценке сигналов. Улучшения по сравнению с традиционными методами были статистически значимыми. Анализы стабильности, включая меру среднего значения и квадратичной стабильности, подтвердили устойчивость и надежность нового подхода.
## Значимость
Предлагаемый подход имеет широкие применения в области систем адаптивной фильтрации, включая сигнальную обработку, сетевые технологии и ИИ. Преимущества заключаются в универсальности, высокой общезначимости и эффективности в условиях нестандартных данных. Это может привести к развитию новых приложений в телекоммуникационных системах, прогнозировании и обработке сигналов.
## Выводы
Результаты показывают, что DNN-ориентированный подход к адаптивному фильтрации значительно улучшает точность и общезначимость в сравнении с традиционными методами. Будущие исследования будут направлены на расширение приложений, оптимизацию архитектуры DNN и рассмотрение подходов к реализации в реальных системах.
Annotation:
This paper proposes a deep neural network (DNN)-driven framework to address
the longstanding generalization challenge in adaptive filtering (AF). In
contrast to traditional AF frameworks that emphasize explicit cost function
design, the proposed framework shifts the paradigm toward direct gradient
acquisition. The DNN, functioning as a universal nonlinear operator, is
structurally embedded into the core architecture of the AF system, establishing
a direct mapping between filtering residuals and ...
Авторы:
Alexandre Bayle, Lucas Janson, Lester Mackey
**Резюме**
В статье рассматривается проблема неопределенности оценок показателей качества машинного обучения при использовании кросс-валидации (CV) для сравнения двух алгоритмов. Хотя CV может давать асимптотические доверительные интервалы для тестовой ошибки стабильных алгоритмов, дело обстоит по-другому при сравнении двух алгоритмов. Авторы придерживаются подхода, основанного на понятии "относительной стабильности", и проводят исследование алгоритма soft-thresholded least squares, творимого родственника Lasso. Они доказывают, что хотя стабильность индивидуальных алгоритмов сохраняется, относительная стабильность при сравнении их показателей не выполняется, даже в простых низкоразмерных линейных моделях. Эмпирические эксперименты показывают, что CV-оценки для разницы показателей не проходят критерий доверия, даже если каждый алгоритм отдельно стабильен. Вывод: при оценке неопределенности результатов CV для сравнения алгоритмов необходимо быть осторожнее, даже если каждый из них сам по себе стабилен.
Annotation:
Existing work has shown that cross-validation (CV) can be used to provide an
asymptotic confidence interval for the test error of a stable machine learning
algorithm, and existing stability results for many popular algorithms can be
applied to derive positive instances where such confidence intervals will be
valid. However, in the common setting where CV is used to compare two
algorithms, it becomes necessary to consider a notion of relative stability
which cannot easily be derived from existing...
📄 Benchmarking Uncertainty and its Disentanglement in multi-label Chest X-Ray Classification
2025-08-09Авторы:
Simon Baur, Wojciech Samek, Jackie Ma
Авторы рассматривают проблему достоверной оценки неопределенности в многометочечной классификации ЧЕХ-снимков, которая критична для надежного принятия решений в медицинской импедимографии. Основной акцент в статье делается на оценке прозрачности и способности моделей разделять эпистемическую и алеаторную неопределенность в различных многометочечных задачах. Для этого проводится бенчмарк 13 методов оценки неопределенности, включая традиционные и алтернативные подходы, на двух архитектурах (ResNet и Vision Transformer) с использованием датасета MIMIC-CXR-JPG. Авторы также расширяют подходы Evidential Deep Learning, HetClass NNs и Deep Deterministic Uncertainty для многометочечной классификации. Выводы работы подчеркивают различия методов и архитектур в эффективности оценки неопределенности и ее разделения, что позволяет выделить сильные и слабые стороны каждого подхода.
Annotation:
Reliable uncertainty quantification is crucial for trustworthy
decision-making and the deployment of AI models in medical imaging. While prior
work has explored the ability of neural networks to quantify predictive,
epistemic, and aleatoric uncertainties using an information-theoretical
approach in synthetic or well defined data settings like natural image
classification, its applicability to real life medical diagnosis tasks remains
underexplored. In this study, we provide an extensive uncertai...
Авторы:
Yuxuan Tao, Adel Javanmard
Мы предлагаем новую фреймворк для приватизации модели Model-X knockoffs, позволяющую управлять False Discovery Rate (FDR) при соблюдении требований к дифференциальной приватности. Основная проблема заключается в том, что существующие методы приватизации, такие как гауссовское и лапласово шумы, нарушают основные условия сменяемости при обработке данных, необходимые для FDR-контроля. Мы используем гауссовую трансформацию Джонстона-Линденстройса для защиты выбора признаков, обеспечивая при этом примерное изометрическое сохранение ковариационных отношений. Наши теоретические результаты демонстрируют, что этот подход позволяет сохранить FDR и мощность выбора признаков при оптимальном компромиссе между приватностью и статистической мощностью. Мы устанавливаем условия для достижения сильной статистической мощности при выборе признаков, даже при строгих требованиях к приватности. Таким образом, мы объединяем две ключевые темы — технологии хоккупов для FDR-контроля и приватизацию данных — в одном фреймворке, позволяя надежно выполнять выбор признаков в контексте чувствительных приложений.
Annotation:
We introduce a novel privatization framework for high-dimensional controlled
variable selection. Our framework enables rigorous False Discovery Rate (FDR)
control under differential privacy constraints. While the Model-X knockoff
procedure provides FDR guarantees by constructing provably exchangeable
``negative control" features, existing privacy mechanisms like Laplace or
Gaussian noise injection disrupt its core exchangeability conditions. Our key
innovation lies in privatizing the data knocko...
Показано 551 -
560
из 564 записей