📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Computing Wasserstein Barycenters through Gradient Flows

2025-10-08

Авторы:

Eduardo Fernandes Montesuma, Yassir Bendou, Mike Gartrell

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Wasserstein barycenters provide a powerful tool for aggregating probability measures, while leveraging the geometry of their ambient space. Existing discrete methods suffer from poor scalability, as they require access to the complete set of samples from input measures. We address this issue by recasting the original barycenter problem as a gradient flow in the Wasserstein space. Our approach offers two advantages. First, we achieve scalability by sampling mini-batches from the input measures. S...

ID: 2510.04602v1 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 Embracing Discrete Search: A Reasonable Approach to Causal Structure Learning

2025-10-08

Авторы:

Marcel Wienöbst, Leonard Henckel, Sebastian Weichwald

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present FLOP (Fast Learning of Order and Parents), a score-based causal discovery algorithm for linear models. It pairs fast parent selection with iterative Cholesky-based score updates, cutting run-times over prior algorithms. This makes it feasible to fully embrace discrete search, enabling iterated local search with principled order initialization to find graphs with scores at or close to the global optimum. The resulting structures are highly accurate across benchmarks, with near-perfect ...

ID: 2510.04970v1 stat.ML, cs.AI, cs.LG, stat.ME

arXiv PDF

📄 Risk Phase Transitions in Spiked Regression: Alignment Driven Benign and Catastrophic Overfitting

2025-10-04

Авторы:

Jiping Li, Rishi Sonthalia

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper analyzes the generalization error of minimum-norm interpolating solutions in linear regression using spiked covariance data models. The paper characterizes how varying spike strengths and target-spike alignments can affect risk, especially in overparameterized settings. The study presents an exact expression for the generalization error, leading to a comprehensive classification of benign, tempered, and catastrophic overfitting regimes based on spike strength, the aspect ratio $c=d/n$...

ID: 2510.01414v1 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 Differentially Private Two-Stage Gradient Descent for Instrumental Variable Regression

2025-10-01

Авторы:

Haodong Liang, Yanhao Jin, Krishnakumar Balasubramanian, Lifeng Lai

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We study instrumental variable regression (IVaR) under differential privacy constraints. Classical IVaR methods (like two-stage least squares regression) rely on solving moment equations that directly use sensitive covariates and instruments, creating significant risks of privacy leakage and posing challenges in designing algorithms that are both statistically efficient and differentially private. We propose a noisy two-state gradient descent algorithm that ensures $\rho$-zero-concentrated diffe...

ID: 2509.22794v1 stat.ML, cs.AI, cs.LG, econ.EM, math.ST, stat.TH

arXiv PDF

📄 End-to-End Deep Learning for Predicting Metric Space-Valued Outputs

2025-10-01

Авторы:

Yidong Zhou, Su I Iao, Hans-Georg Müller

## Контекст Одним из основных задач регрессии является предсказание пространственно-векторных выходных данных, которые носят структурированный характер, например, вектора, матрицы или даже сети. Однако, существуют ситуации, когда выходные данные естественным образом моделируются как элементы геометрических пространств, не являющихся векторными (например, группы симметричноопределенных матриц плюс или функциональные пространства). Традиционные методы регрессии, опирающиеся на векторное пространство, не могут быть применены в таких случаях. Это создает необходимость в разработке методов, способных эффективно работать в метрических пространствах. Таким образом, задача предсказания выходных данных в метрических пространствах является важной и актуальной в многих областях, включая машинное обучение, анализ данных, геометрию и др. ## Метод Мы предлагаем **End-to-End Metric Regression (E2M)**, новую архитектуру глубокого обучения, предназначенную для решения задач регрессии в метрических пространствах. Основная идея E2M заключается в использовании **взвешенных фрактельных средних** (Fréchet means) для предсказания выходных данных. Эти взвешенные средние формируются с помощью нейронной сети, которая вычисляет веса на основе входных данных. Эти веса определяют вклад каждого элемента множества выходных данных в финальное предсказание. Таким образом, E2M позволяет гибко адаптироваться к геометрии пространства выходных данных, не прибегая к ограничивающим параметрическим моделям. Метод E2M также включает в себя регуляризацию энтропии, чтобы обеспечить устойчивость и повысить точность предсказания в условиях неопределенности. ## Результаты Мы провели обширные эксперименты с различными типами метрических пространств, включая пространство вероятностных распределений, пространство сетей и пространство симметрично определенных матриц. Мы сравнивали E2M с другими методами регрессии, включая традиционные и те, которые используют параметрические модели. Наши результаты показывают, что E2M показывает высокую точность и стабильность в предсказании выходных данных. Мы также проводили эксперименты на реальных данных, включая данные о человеческих распределениях смертности и сетях транспорта Нью-Йорка. В этих случаях E2M демонстрировал значительные преимущества по сравнению с другими методами. ## Значимость Предложенная модель E2M имеет широкие приложения в области предсказания структурированных данных, включая прогнозирование распределений, анализ сетей, моделирование геометрических объектов и др. Одним из основных

Annotation:

Many modern applications involve predicting structured, non-Euclidean outputs such as probability distributions, networks, and symmetric positive-definite matrices. These outputs are naturally modeled as elements of general metric spaces, where classical regression techniques that rely on vector space structure no longer apply. We introduce E2M (End-to-End Metric regression), a deep learning framework for predicting metric space-valued outputs. E2M performs prediction via a weighted Fr\'echet me...

ID: 2509.23544v1 stat.ML, cs.AI, cs.LG, stat.ME

arXiv PDF

📄 Best-of-$\infty$ -- Asymptotic Performance of Test-Time Compute

2025-09-27

Авторы:

Junpei Komiyama, Daisuke Oba, Masafumi Oyamada

#### Контекст Область исследований — тест-тайм компьютерные возможности с большими языковыми моделями (LLMs). Наблюдается увеличение интереса к распределенному вычислению данных в задачах тестирования моделей лингвистических моделей. Однако существуют теоретические и практические ограничения, включая сложность выбора наилучших моделей и оптимального количества этих моделей. Целью данного исследования является изучение асимптотического поведения классической техники "Best-of-$N$" для большинства языковых моделей. Данное построение предлагает новый подход к оптимальному выбору моделей в тест-тайме с помощью адаптивного подхода, который эффективно ставит в соответствии количество вычислений с объемом данных. #### Метод Исследование базируется на методологии "Best-of-$N$", где $N$ — число моделей, голосующих за предпочтительный вывод. Для асимптотического поведения когда $N \to \infty$, используется метод "Best-of-$\infty$". Для улучшения эффективности реализован адаптивный генерационный механизм, который определяет $N$ на основе уровня согласования ответов. Для улучшения точности решений, рассмотрены взвешенные сочетания моделей, которые позволяют многократно улучшить производительность. Аппроксимация весов элементов взвешенных сочетаний выполнена с помощью микрованных программ оптимизации . Эксперименты проводились на обширном датасете, включающем различные типы задач тестирования моделей языковых моделей. #### Результаты Изучены результаты тестирования моделей в тест-тайме на оптимальном выборе $N$. Оказалось, что адаптивный подход не только эффективно решает задачу выбора $N$, но и существенно уменьшает требуемый объем вычислительных ресурсов. Были получены результаты, указывающие на более высокую точность вывода при взвешенных сочетаниях моделей. Также было установлено, что взвешенные сочетания моделей могут существенно превышать производительность отдельных моделей. Эксперименты подтвердили эффективность подхода в разных сценариях, в том числе в сложных задачах тестирования языковых моделей. #### Значимость Данный подход может быть применен в различных областях, включая машинное обучение, тестирование языковых моделей и приложения в области глубокого обучения. Он предоставляет значительные преимущества, такие как уменьшение требуемого объема вычислений и улучшение точности решений. Полученные результаты открывают пути для будущих исследований в подобных областях, таких как развитие новых методов оптимального взвешивания моделей и оптимизации распределенных вычислений в тест-тайме. #### Выводы Основным достижением является уста

Annotation:

We study best-of-$N$ for large language models (LLMs) where the selection is based on majority voting. In particular, we analyze the limit $N \to \infty$, which we denote as Best-of-$\infty$. While this approach achieves impressive performance in the limit, it requires an infinite test-time budget. To address this, we propose an adaptive generation scheme that selects $N$ based on answer agreement, thereby efficiently allocating inference-time computation. Beyond adaptivity, we extend the framew...

ID: 2509.21091v1 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 Uncertainty Quantification in Probabilistic Machine Learning Models: Theory, Methods, and Insights

2025-09-12

Авторы:

Marzieh Ajirak, Anand Ravishankar, Petar M. Djuric

## Контекст Uncertainty Quantification (UQ) является ключевым аспектом в развитии моделей проблемы машинного обучения с моделями (MLM). Оценивание неопределенности помогает проверить надежность и точность моделей в реальных условиях. Несомненно, что некоторая неопределенность в прогнозе может быть обусловлена недостатком данных или внутренними ошибками в модели, однако подобные неясности часто могут привести к негативным результатам в принятии решений. Тем не менее, многие проблемы в UQ недостаточно изучены, в том числе, как именно оцениваются типы неопределенности, включая априорную и априорную. Эта статья посвящена разработке формализованного подхода к UQ, основываясь на гауссовских процессах и используя методику случайных реализаций для эффективного оценивания. ## Метод В данной работе предлагается алгоритм, основанный на гауссовских процессах, который учитывает как априорную, так и априорную неопределенность. Метод основывается на случайных реализациях Фурье, которые позволяют эффективно оценивать пространство гиперпараметров. Эта стратегия позволяет уменьшить меру корреляции и, следовательно, улучшить время вычисления. Модели были проверены на наборе данных UCI Machine Learning, чтобы оценить точность интерпретации неопределенности в различных ситуациях. Это позволяет предоставить первые результаты, подтверждающие эффективность подхода. ## Результаты Эксперименты показали, что метод дает точные оценки неопределенности в машинном обучении. В частности, проведенные эксперименты показали, что модели могут интерпретировать как априорную, так и априорную неопределенность, обеспечивая надежные прогнозы. Особенно удачным оказалось применение Random Fourier Features по сравнению с другими методиками, чтобы эффективно оценить неопределенность в пространстве гиперпараметров. ## Значимость Предложенный подход может иметь широкое применение в различных областях, таких как финансы, здравоохранение и системы управления рисками. Метод может помочь улучшить надежность решений, основываясь на более точных оценках неопределенности. Более того, этот подход может иметь потенциал для развития новых моделей, учитывающих неопределенность в общем виде, что может привести к созданию более устойчивых и надежных моделей в проблемах MLM. ## Выводы В данной работе была разработана новая модель для оценки неопределенности в MLM, которая использует гауссовские процессы и Random Fourier Features. Этот подход позволяет эффективно оценивать неопределенность и повышает надежность решений в моделях MLM. В дальнейшем будут проводиться дополнительные исследования, направленные на улучшение точности и эффективности модели, особ

Annotation:

Uncertainty Quantification (UQ) is essential in probabilistic machine learning models, particularly for assessing the reliability of predictions. In this paper, we present a systematic framework for estimating both epistemic and aleatoric uncertainty in probabilistic models. We focus on Gaussian Process Latent Variable Models and employ scalable Random Fourier Features-based Gaussian Processes to approximate predictive distributions efficiently. We derive a theoretical formulation for UQ, propos...

ID: 2509.05877v2 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 Diffusion Generative Models Meet Compressed Sensing, with Applications to Image Data and Financial Time Series

2025-09-06

Авторы:

Zhengyi Guo, Jiatu Li, Wenpin Tang, David D. Yao

#### Контекст Диффузионные генеритивные модели (DGM) широко применяются в области синтеза данных, предсказания, моделирования и других задачах. Однако инференция в этих моделях часто требует больших вычислительных ресурсов, особенно при обработке больших данных, таких как изображения или финансовые временные ряды. Это приводит к увеличению времени обучения и вычислений, что становится критичным в сценариях, требующих реального времени. Для улучшения эффективности используются техники сжатия данных, но они могут привести к потере информации и снижению точности. Мотивация для данного исследования заключается в разработке более эффективных методов для ускорения инференции DGM при сохранении качества сгенерированных данных. #### Метод Проект включает в себя интеграцию технологии сжатия сигнала (compressed sensing) с DGM. Основными этапами методики являются: 1. **Сжатие данных**: авторы разработали методику сжатия данных в низком размерном пространстве (latent space) с помощью сингулярных значений, которая позволяет сохранить основные особенности данных. 2. **Обучение модели**: после сжатия данные обучают DGM в сжатом пространстве, что позволяет уменьшить вычислительные затраты. 3. **Сжатие при выводе**: при генерации новых данных, используется сжатие сигнала для ускорения инференции. Таким образом, DGM объединяет в себе сжатие данных и основную инференцию, что делает процесс обучения и применения модели более эффективным. Архитектура модели построена на основе теории сжатия сигнала и DGM. Она использует методы линейного сжатия и нелинейного моделирования для построения компактных представлений данных. Это позволяет уменьшить количество параметров, необходимых для обучения, при этом сохраняя качество сгенерированных данных. #### Результаты Для проверки эффективности разработанных методов проводились эксперименты на различных наборах данных, включая изображения (рукописные цифры, медицинские изображения, климатические данные) и финансовые временные ряды. Использовались метрики, такие как качество генерируемых изображений (PSNR, SSIM) и точность предсказаний временных рядов. Результаты показали, что интеграция сжатия сигнала с DGM приводит к значительному увеличению скорости инференции без существенного ухудшения точности. Кроме того, было показано, что подбор оптимального размера latent space может существенно повлиять на эффективность модели. #### Значимость Разработанный подход имеет широкое применение в синтезе и обработке данных, в том числе в области изображений и финансовых анализов. Он позволяет увеличить скорость инференции DGM, что критично для реального времени приложений, таких как

Annotation:

This paper develops dimension reduction techniques for accelerating diffusion model inference in the context of synthetic data generation. The idea is to integrate compressed sensing into diffusion models: (i) compress the data into a latent space, (ii) train a diffusion model in the latent space, and (iii) apply a compressed sensing algorithm to the samples generated in the latent space, facilitating the efficiency of both model training and inference. Under suitable sparsity assumptions on dat...

ID: 2509.03898v1 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 The Information Dynamics of Generative Diffusion

2025-08-29

Авторы:

Luca Ambrogioni

#### Контекст Generative diffusion models (GDM) являются мощным классом методов в машинном обучении, позволяющим генерировать высококачественные данные, подобные исходным. Однако их функционирование до сих пор остается частично непонятным. Одним из ключевых вопросов является понимание, как эти модели управляют структурой генерируемых данных, а также каковы характеристики генерируемых процессов. В настоящей работе мы предлагаем новый подход к исследованию этих вопросов, основываясь на идее информационной динамики, которая позволяет связать динамику генерируемых процессов с их информационно-теоретическими и термодинамическими свойствами. #### Метод Мы развиваем теоретическую модель, которая описывает процесс генерирования данных в рамках формализма информационной динамики. Эта модель основывается на диффузионных уравнениях Фоккера-Планка и информационно-теоретических показателях. Мы описываем процесс генерирования как процесс динамического сбалансирования шума и структуры, при котором система минимизирует её информационный разброс. Для этого используется векторное поле скорости, определяемое скоростью скорости сдвига, и сингулярность этого поля, которая определяет возможность продолжительности процесса. Мы также используем методы теории симметрий для анализа симметрий генерируемых процессов и их разрывов. #### Результаты Мы проводим эксперименты, используя стандартные датасеты, такие как CIFAR-10 и CelebA. Мы измеряем различные характеристики генерируемых процессов, включая скорость сдвига векторного поля, степень дисперсии и информационный разброс. Мы показываем, что генерируемые процессы имеют специфические характеристики, такие как синхронность шума в процессе, которая может быть изменена с помощью скорости скорости сдвига. Мы также показываем, что модель имеет гибкость в поддержании симметрий и их разрывов, которые могут привести к прорывам и новым решениям в процессе генерирования. #### Значимость Наш подход имеет широкие применения в области генерирования данных, в том числе в задачах генерирования текста, изображений и моделирования сложных систем. Он позволяет получать более стабильные и высококачественные результаты, снижая вероятность появления шума и неверных символов. Благодаря синтезу информационной динамики и термодинамики, мы можем лучше понять, как работают эти модели и как их можно оптимизировать. Это может привести к более эффективным алгоритмам и моделям в машинном обучении. #### Выводы Мы предлагаем новый синтез между инф

Annotation:

Generative diffusion models have emerged as a powerful class of models in machine learning, yet a unified theoretical understanding of their operation is still developing. This perspective paper provides an integrated perspective on generative diffusion by connecting their dynamic, information-theoretic, and thermodynamic properties under a unified mathematical framework. We demonstrate that the rate of conditional entropy production during generation (i.e. the generative bandwidth) is directly ...

ID: 2508.19897v1 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 Algebraic Approach to Ridge-Regularized Mean Squared Error Minimization in Minimal ReLU Neural Network

2025-08-27

Авторы:

Ryoya Fukasaku, Yutaro Kabata, Akifumi Okuno

## Контекст Перцептрон — простой модель нейронной сети, которая используется для решения задач классификации и регрессии. Одна из основных задач в обучении таких моделей — минимизация квадратичной ошибки с регуляризацией (ridge-regularized mean squared error, RR-MSE). Традиционные методы, такие как градиентный спуск, не всегда эффективны в решении этой задачи, особенно при высоких размерностях. На сегодняшний день недостаточно хорошо понятны структура и свойства решений этой задачи, что ограничивает возможности для понимания и улучшения алгоритмов обучения. ## Метод В статье предлагается алгебраический подход для решения задачи RR-MSE в релаксационных перцептронах (ReLU). Авторы отмечают, что квадратичная ошибка с регуляризацией является пьезополиномом от весовых коэффициентов сети. Это свойство используется для разработки метода Divide-Enumerate-Merge (DEM). Метод делит пространство параметров на области, в которых RR-MSE является полиномом, и направляет внимание на точное решение каждой части. Далее, полученные решения объединяются в общее решение. Такой подход позволяет не только находить локальные минимумы, но и выявлять высокоразмерные минимумы, такие как кривые и поверхности. ## Результаты Авторы применяют свой подход к минимальным релаксационным перцептронам (minimal ReLU neural networks) с небольшим числом скрытых слоев. Используя компьютерные алгебраические инструменты, они успешно вычисляют все локальные минимумы RR-MSE в этих моделях. Эксперимент показывает, что метод DEM эффективен в идентификации всех локальных минимумов, включая высокоразмерные. Однако, ввиду высокой сложности вычислений, подход ограничивается небольшими моделями. ## Значимость Предложенный подход может быть применен в обучении нейронных сетей, чтобы получить глобальные решения задачи RR-MSE. Он имеет потенциал для улучшения точности и стабильности методов обучения. Также, способность идентификации высокоразмерных минимумов делает этот подход уникальным в сравнении с традиционными методами. Несмотря на высокую сложность, результаты доказывают многочисленные преимущества этого подхода, особенно для малых моделей. ## Выводы Алгебраический подход, описанный в статье, доказывает свою эффективность в решении задачи RR-MSE в релаксационных перцептронах. Он успешно раскрывает структуру решений и открывает новые возможности для анализа и улучшения нейронных сетей. Несмотря на высокую сложность, данный подход может быть расширен на более крупные модели в будущих исследованиях. Это открывает путь к более глубокому пониманию и улучшению нейронных сетей.

Annotation:

This paper investigates a perceptron, a simple neural network model, with ReLU activation and a ridge-regularized mean squared error (RR-MSE). Our approach leverages the fact that the RR-MSE for ReLU perceptron is piecewise polynomial, enabling a systematic analysis using tools from computational algebra. In particular, we develop a Divide-Enumerate-Merge strategy that exhaustively enumerates all local minima of the RR-MSE. By virtue of the algebraic formulation, our approach can identify not on...

ID: 2508.17783v1 stat.ML, cs.AI, cs.LG, stat.CO

arXiv PDF

Показано 21 - 30 из 35 записей