📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Eduardo Fernandes Montesuma, Yassir Bendou, Mike Gartrell
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Wasserstein barycenters provide a powerful tool for aggregating probability
measures, while leveraging the geometry of their ambient space. Existing
discrete methods suffer from poor scalability, as they require access to the
complete set of samples from input measures. We address this issue by recasting
the original barycenter problem as a gradient flow in the Wasserstein space.
Our approach offers two advantages. First, we achieve scalability by sampling
mini-batches from the input measures. S...
Авторы:
Marcel Wienöbst, Leonard Henckel, Sebastian Weichwald
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We present FLOP (Fast Learning of Order and Parents), a score-based causal
discovery algorithm for linear models. It pairs fast parent selection with
iterative Cholesky-based score updates, cutting run-times over prior
algorithms. This makes it feasible to fully embrace discrete search, enabling
iterated local search with principled order initialization to find graphs with
scores at or close to the global optimum. The resulting structures are highly
accurate across benchmarks, with near-perfect ...
📄 Risk Phase Transitions in Spiked Regression: Alignment Driven Benign and Catastrophic Overfitting
2025-10-04Авторы:
Jiping Li, Rishi Sonthalia
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This paper analyzes the generalization error of minimum-norm interpolating
solutions in linear regression using spiked covariance data models. The paper
characterizes how varying spike strengths and target-spike alignments can
affect risk, especially in overparameterized settings. The study presents an
exact expression for the generalization error, leading to a comprehensive
classification of benign, tempered, and catastrophic overfitting regimes based
on spike strength, the aspect ratio $c=d/n$...
Авторы:
Haodong Liang, Yanhao Jin, Krishnakumar Balasubramanian, Lifeng Lai
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We study instrumental variable regression (IVaR) under differential privacy
constraints. Classical IVaR methods (like two-stage least squares regression)
rely on solving moment equations that directly use sensitive covariates and
instruments, creating significant risks of privacy leakage and posing
challenges in designing algorithms that are both statistically efficient and
differentially private. We propose a noisy two-state gradient descent algorithm
that ensures $\rho$-zero-concentrated diffe...
Авторы:
Yidong Zhou, Su I Iao, Hans-Georg Müller
## Контекст
Одним из основных задач регрессии является предсказание пространственно-векторных выходных данных, которые носят структурированный характер, например, вектора, матрицы или даже сети. Однако, существуют ситуации, когда выходные данные естественным образом моделируются как элементы геометрических пространств, не являющихся векторными (например, группы симметричноопределенных матриц плюс или функциональные пространства). Традиционные методы регрессии, опирающиеся на векторное пространство, не могут быть применены в таких случаях. Это создает необходимость в разработке методов, способных эффективно работать в метрических пространствах. Таким образом, задача предсказания выходных данных в метрических пространствах является важной и актуальной в многих областях, включая машинное обучение, анализ данных, геометрию и др.
## Метод
Мы предлагаем **End-to-End Metric Regression (E2M)**, новую архитектуру глубокого обучения, предназначенную для решения задач регрессии в метрических пространствах. Основная идея E2M заключается в использовании **взвешенных фрактельных средних** (Fréchet means) для предсказания выходных данных. Эти взвешенные средние формируются с помощью нейронной сети, которая вычисляет веса на основе входных данных. Эти веса определяют вклад каждого элемента множества выходных данных в финальное предсказание. Таким образом, E2M позволяет гибко адаптироваться к геометрии пространства выходных данных, не прибегая к ограничивающим параметрическим моделям. Метод E2M также включает в себя регуляризацию энтропии, чтобы обеспечить устойчивость и повысить точность предсказания в условиях неопределенности.
## Результаты
Мы провели обширные эксперименты с различными типами метрических пространств, включая пространство вероятностных распределений, пространство сетей и пространство симметрично определенных матриц. Мы сравнивали E2M с другими методами регрессии, включая традиционные и те, которые используют параметрические модели. Наши результаты показывают, что E2M показывает высокую точность и стабильность в предсказании выходных данных. Мы также проводили эксперименты на реальных данных, включая данные о человеческих распределениях смертности и сетях транспорта Нью-Йорка. В этих случаях E2M демонстрировал значительные преимущества по сравнению с другими методами.
## Значимость
Предложенная модель E2M имеет широкие приложения в области предсказания структурированных данных, включая прогнозирование распределений, анализ сетей, моделирование геометрических объектов и др. Одним из основных
Annotation:
Many modern applications involve predicting structured, non-Euclidean outputs
such as probability distributions, networks, and symmetric positive-definite
matrices. These outputs are naturally modeled as elements of general metric
spaces, where classical regression techniques that rely on vector space
structure no longer apply. We introduce E2M (End-to-End Metric regression), a
deep learning framework for predicting metric space-valued outputs. E2M
performs prediction via a weighted Fr\'echet me...
Авторы:
Junpei Komiyama, Daisuke Oba, Masafumi Oyamada
#### Контекст
Область исследований — тест-тайм компьютерные возможности с большими языковыми моделями (LLMs). Наблюдается увеличение интереса к распределенному вычислению данных в задачах тестирования моделей лингвистических моделей. Однако существуют теоретические и практические ограничения, включая сложность выбора наилучших моделей и оптимального количества этих моделей. Целью данного исследования является изучение асимптотического поведения классической техники "Best-of-$N$" для большинства языковых моделей. Данное построение предлагает новый подход к оптимальному выбору моделей в тест-тайме с помощью адаптивного подхода, который эффективно ставит в соответствии количество вычислений с объемом данных.
#### Метод
Исследование базируется на методологии "Best-of-$N$", где $N$ — число моделей, голосующих за предпочтительный вывод. Для асимптотического поведения когда $N \to \infty$, используется метод "Best-of-$\infty$". Для улучшения эффективности реализован адаптивный генерационный механизм, который определяет $N$ на основе уровня согласования ответов. Для улучшения точности решений, рассмотрены взвешенные сочетания моделей, которые позволяют многократно улучшить производительность. Аппроксимация весов элементов взвешенных сочетаний выполнена с помощью микрованных программ оптимизации . Эксперименты проводились на обширном датасете, включающем различные типы задач тестирования моделей языковых моделей.
#### Результаты
Изучены результаты тестирования моделей в тест-тайме на оптимальном выборе $N$. Оказалось, что адаптивный подход не только эффективно решает задачу выбора $N$, но и существенно уменьшает требуемый объем вычислительных ресурсов. Были получены результаты, указывающие на более высокую точность вывода при взвешенных сочетаниях моделей. Также было установлено, что взвешенные сочетания моделей могут существенно превышать производительность отдельных моделей. Эксперименты подтвердили эффективность подхода в разных сценариях, в том числе в сложных задачах тестирования языковых моделей.
#### Значимость
Данный подход может быть применен в различных областях, включая машинное обучение, тестирование языковых моделей и приложения в области глубокого обучения. Он предоставляет значительные преимущества, такие как уменьшение требуемого объема вычислений и улучшение точности решений. Полученные результаты открывают пути для будущих исследований в подобных областях, таких как развитие новых методов оптимального взвешивания моделей и оптимизации распределенных вычислений в тест-тайме.
#### Выводы
Основным достижением является уста
Annotation:
We study best-of-$N$ for large language models (LLMs) where the selection is
based on majority voting. In particular, we analyze the limit $N \to \infty$,
which we denote as Best-of-$\infty$. While this approach achieves impressive
performance in the limit, it requires an infinite test-time budget. To address
this, we propose an adaptive generation scheme that selects $N$ based on answer
agreement, thereby efficiently allocating inference-time computation. Beyond
adaptivity, we extend the framew...
📄 Uncertainty Quantification in Probabilistic Machine Learning Models: Theory, Methods, and Insights
2025-09-12Авторы:
Marzieh Ajirak, Anand Ravishankar, Petar M. Djuric
## Контекст
Uncertainty Quantification (UQ) является ключевым аспектом в развитии моделей проблемы машинного обучения с моделями (MLM). Оценивание неопределенности помогает проверить надежность и точность моделей в реальных условиях. Несомненно, что некоторая неопределенность в прогнозе может быть обусловлена недостатком данных или внутренними ошибками в модели, однако подобные неясности часто могут привести к негативным результатам в принятии решений. Тем не менее, многие проблемы в UQ недостаточно изучены, в том числе, как именно оцениваются типы неопределенности, включая априорную и априорную. Эта статья посвящена разработке формализованного подхода к UQ, основываясь на гауссовских процессах и используя методику случайных реализаций для эффективного оценивания.
## Метод
В данной работе предлагается алгоритм, основанный на гауссовских процессах, который учитывает как априорную, так и априорную неопределенность. Метод основывается на случайных реализациях Фурье, которые позволяют эффективно оценивать пространство гиперпараметров. Эта стратегия позволяет уменьшить меру корреляции и, следовательно, улучшить время вычисления. Модели были проверены на наборе данных UCI Machine Learning, чтобы оценить точность интерпретации неопределенности в различных ситуациях. Это позволяет предоставить первые результаты, подтверждающие эффективность подхода.
## Результаты
Эксперименты показали, что метод дает точные оценки неопределенности в машинном обучении. В частности, проведенные эксперименты показали, что модели могут интерпретировать как априорную, так и априорную неопределенность, обеспечивая надежные прогнозы. Особенно удачным оказалось применение Random Fourier Features по сравнению с другими методиками, чтобы эффективно оценить неопределенность в пространстве гиперпараметров.
## Значимость
Предложенный подход может иметь широкое применение в различных областях, таких как финансы, здравоохранение и системы управления рисками. Метод может помочь улучшить надежность решений, основываясь на более точных оценках неопределенности. Более того, этот подход может иметь потенциал для развития новых моделей, учитывающих неопределенность в общем виде, что может привести к созданию более устойчивых и надежных моделей в проблемах MLM.
## Выводы
В данной работе была разработана новая модель для оценки неопределенности в MLM, которая использует гауссовские процессы и Random Fourier Features. Этот подход позволяет эффективно оценивать неопределенность и повышает надежность решений в моделях MLM. В дальнейшем будут проводиться дополнительные исследования, направленные на улучшение точности и эффективности модели, особ
Annotation:
Uncertainty Quantification (UQ) is essential in probabilistic machine
learning models, particularly for assessing the reliability of predictions. In
this paper, we present a systematic framework for estimating both epistemic and
aleatoric uncertainty in probabilistic models. We focus on Gaussian Process
Latent Variable Models and employ scalable Random Fourier Features-based
Gaussian Processes to approximate predictive distributions efficiently. We
derive a theoretical formulation for UQ, propos...
Авторы:
Zhengyi Guo, Jiatu Li, Wenpin Tang, David D. Yao
#### Контекст
Диффузионные генеритивные модели (DGM) широко применяются в области синтеза данных, предсказания, моделирования и других задачах. Однако инференция в этих моделях часто требует больших вычислительных ресурсов, особенно при обработке больших данных, таких как изображения или финансовые временные ряды. Это приводит к увеличению времени обучения и вычислений, что становится критичным в сценариях, требующих реального времени. Для улучшения эффективности используются техники сжатия данных, но они могут привести к потере информации и снижению точности. Мотивация для данного исследования заключается в разработке более эффективных методов для ускорения инференции DGM при сохранении качества сгенерированных данных.
#### Метод
Проект включает в себя интеграцию технологии сжатия сигнала (compressed sensing) с DGM. Основными этапами методики являются:
1. **Сжатие данных**: авторы разработали методику сжатия данных в низком размерном пространстве (latent space) с помощью сингулярных значений, которая позволяет сохранить основные особенности данных.
2. **Обучение модели**: после сжатия данные обучают DGM в сжатом пространстве, что позволяет уменьшить вычислительные затраты.
3. **Сжатие при выводе**: при генерации новых данных, используется сжатие сигнала для ускорения инференции. Таким образом, DGM объединяет в себе сжатие данных и основную инференцию, что делает процесс обучения и применения модели более эффективным.
Архитектура модели построена на основе теории сжатия сигнала и DGM. Она использует методы линейного сжатия и нелинейного моделирования для построения компактных представлений данных. Это позволяет уменьшить количество параметров, необходимых для обучения, при этом сохраняя качество сгенерированных данных.
#### Результаты
Для проверки эффективности разработанных методов проводились эксперименты на различных наборах данных, включая изображения (рукописные цифры, медицинские изображения, климатические данные) и финансовые временные ряды. Использовались метрики, такие как качество генерируемых изображений (PSNR, SSIM) и точность предсказаний временных рядов. Результаты показали, что интеграция сжатия сигнала с DGM приводит к значительному увеличению скорости инференции без существенного ухудшения точности. Кроме того, было показано, что подбор оптимального размера latent space может существенно повлиять на эффективность модели.
#### Значимость
Разработанный подход имеет широкое применение в синтезе и обработке данных, в том числе в области изображений и финансовых анализов. Он позволяет увеличить скорость инференции DGM, что критично для реального времени приложений, таких как
Annotation:
This paper develops dimension reduction techniques for accelerating diffusion
model inference in the context of synthetic data generation. The idea is to
integrate compressed sensing into diffusion models: (i) compress the data into
a latent space, (ii) train a diffusion model in the latent space, and (iii)
apply a compressed sensing algorithm to the samples generated in the latent
space, facilitating the efficiency of both model training and inference. Under
suitable sparsity assumptions on dat...
Авторы:
Luca Ambrogioni
#### Контекст
Generative diffusion models (GDM) являются мощным классом методов в машинном обучении, позволяющим генерировать высококачественные данные, подобные исходным. Однако их функционирование до сих пор остается частично непонятным. Одним из ключевых вопросов является понимание, как эти модели управляют структурой генерируемых данных, а также каковы характеристики генерируемых процессов. В настоящей работе мы предлагаем новый подход к исследованию этих вопросов, основываясь на идее информационной динамики, которая позволяет связать динамику генерируемых процессов с их информационно-теоретическими и термодинамическими свойствами.
#### Метод
Мы развиваем теоретическую модель, которая описывает процесс генерирования данных в рамках формализма информационной динамики. Эта модель основывается на диффузионных уравнениях Фоккера-Планка и информационно-теоретических показателях. Мы описываем процесс генерирования как процесс динамического сбалансирования шума и структуры, при котором система минимизирует её информационный разброс. Для этого используется векторное поле скорости, определяемое скоростью скорости сдвига, и сингулярность этого поля, которая определяет возможность продолжительности процесса. Мы также используем методы теории симметрий для анализа симметрий генерируемых процессов и их разрывов.
#### Результаты
Мы проводим эксперименты, используя стандартные датасеты, такие как CIFAR-10 и CelebA. Мы измеряем различные характеристики генерируемых процессов, включая скорость сдвига векторного поля, степень дисперсии и информационный разброс. Мы показываем, что генерируемые процессы имеют специфические характеристики, такие как синхронность шума в процессе, которая может быть изменена с помощью скорости скорости сдвига. Мы также показываем, что модель имеет гибкость в поддержании симметрий и их разрывов, которые могут привести к прорывам и новым решениям в процессе генерирования.
#### Значимость
Наш подход имеет широкие применения в области генерирования данных, в том числе в задачах генерирования текста, изображений и моделирования сложных систем. Он позволяет получать более стабильные и высококачественные результаты, снижая вероятность появления шума и неверных символов. Благодаря синтезу информационной динамики и термодинамики, мы можем лучше понять, как работают эти модели и как их можно оптимизировать. Это может привести к более эффективным алгоритмам и моделям в машинном обучении.
#### Выводы
Мы предлагаем новый синтез между инф
Annotation:
Generative diffusion models have emerged as a powerful class of models in
machine learning, yet a unified theoretical understanding of their operation is
still developing. This perspective paper provides an integrated perspective on
generative diffusion by connecting their dynamic, information-theoretic, and
thermodynamic properties under a unified mathematical framework. We demonstrate
that the rate of conditional entropy production during generation (i.e. the
generative bandwidth) is directly ...
Авторы:
Ryoya Fukasaku, Yutaro Kabata, Akifumi Okuno
## Контекст
Перцептрон — простой модель нейронной сети, которая используется для решения задач классификации и регрессии. Одна из основных задач в обучении таких моделей — минимизация квадратичной ошибки с регуляризацией (ridge-regularized mean squared error, RR-MSE). Традиционные методы, такие как градиентный спуск, не всегда эффективны в решении этой задачи, особенно при высоких размерностях. На сегодняшний день недостаточно хорошо понятны структура и свойства решений этой задачи, что ограничивает возможности для понимания и улучшения алгоритмов обучения.
## Метод
В статье предлагается алгебраический подход для решения задачи RR-MSE в релаксационных перцептронах (ReLU). Авторы отмечают, что квадратичная ошибка с регуляризацией является пьезополиномом от весовых коэффициентов сети. Это свойство используется для разработки метода Divide-Enumerate-Merge (DEM). Метод делит пространство параметров на области, в которых RR-MSE является полиномом, и направляет внимание на точное решение каждой части. Далее, полученные решения объединяются в общее решение. Такой подход позволяет не только находить локальные минимумы, но и выявлять высокоразмерные минимумы, такие как кривые и поверхности.
## Результаты
Авторы применяют свой подход к минимальным релаксационным перцептронам (minimal ReLU neural networks) с небольшим числом скрытых слоев. Используя компьютерные алгебраические инструменты, они успешно вычисляют все локальные минимумы RR-MSE в этих моделях. Эксперимент показывает, что метод DEM эффективен в идентификации всех локальных минимумов, включая высокоразмерные. Однако, ввиду высокой сложности вычислений, подход ограничивается небольшими моделями.
## Значимость
Предложенный подход может быть применен в обучении нейронных сетей, чтобы получить глобальные решения задачи RR-MSE. Он имеет потенциал для улучшения точности и стабильности методов обучения. Также, способность идентификации высокоразмерных минимумов делает этот подход уникальным в сравнении с традиционными методами. Несмотря на высокую сложность, результаты доказывают многочисленные преимущества этого подхода, особенно для малых моделей.
## Выводы
Алгебраический подход, описанный в статье, доказывает свою эффективность в решении задачи RR-MSE в релаксационных перцептронах. Он успешно раскрывает структуру решений и открывает новые возможности для анализа и улучшения нейронных сетей. Несмотря на высокую сложность, данный подход может быть расширен на более крупные модели в будущих исследованиях. Это открывает путь к более глубокому пониманию и улучшению нейронных сетей.
Annotation:
This paper investigates a perceptron, a simple neural network model, with
ReLU activation and a ridge-regularized mean squared error (RR-MSE). Our
approach leverages the fact that the RR-MSE for ReLU perceptron is piecewise
polynomial, enabling a systematic analysis using tools from computational
algebra. In particular, we develop a Divide-Enumerate-Merge strategy that
exhaustively enumerates all local minima of the RR-MSE. By virtue of the
algebraic formulation, our approach can identify not on...
Показано 21 -
30
из 35 записей