📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Learning Causality for Longitudinal Data

2025-12-05

Авторы:

Mouad EL Bouchattaoui

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This thesis develops methods for causal inference and causal representation learning (CRL) in high-dimensional, time-varying data. The first contribution introduces the Causal Dynamic Variational Autoencoder (CDVAE), a model for estimating Individual Treatment Effects (ITEs) by capturing unobserved heterogeneity in treatment response driven by latent risk factors that affect only outcomes. CDVAE comes with theoretical guarantees on valid latent adjustment and generalization bounds for ITE erro...

ID: 2512.04980v1 stat.ML, cs.IT, cs.LG

arXiv PDF

📄 On Instability of Minimax Optimal Optimism-Based Bandit Algorithms

2025-11-26

Авторы:

Samya Praharaj, Koulik Khamaru

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Statistical inference from data generated by multi-armed bandit (MAB) algorithms is challenging due to their adaptive, non-i.i.d. nature. A classical manifestation is that sample averages of arm rewards under bandit sampling may fail to satisfy a central limit theorem. Lai and Wei's stability condition provides a sufficient, and essentially necessary criterion, for asymptotic normality in bandit problems. While the celebrated Upper Confidence Bound (UCB) algorithm satisfies this stability condit...

ID: 2511.18750v1 stat.ML, cs.IT, cs.LG, math.ST

arXiv PDF

📄 Unifying Information-Theoretic and Pair-Counting Clustering Similarity

2025-11-08

Авторы:

Alexander J. Gates

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Comparing clusterings is central to evaluating unsupervised models, yet the many existing similarity measures can produce widely divergent, sometimes contradictory, evaluations. Clustering similarity measures are typically organized into two principal families, pair-counting and information-theoretic, reflecting whether they quantify agreement through element pairs or aggregate information across full cluster contingency tables. Prior work has uncovered parallels between these families and appli...

ID: 2511.03000v1 stat.ML, cs.IT, cs.LG, math.IT

arXiv PDF

📄 Error Bounds and Optimal Schedules for Masked Diffusions with Factorized Approximations

2025-10-31

Авторы:

Hugo Lavenant, Giacomo Zanella

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recently proposed generative models for discrete data, such as Masked Diffusion Models (MDMs), exploit conditional independence approximations to reduce the computational cost of popular Auto-Regressive Models (ARMs), at the price of some bias in the sampling distribution. We study the resulting computation-vs-accuracy trade-off, providing general error bounds (in relative entropy) that depend only on the average number of tokens generated per iteration and are independent of the data dimensiona...

ID: 2510.25544v1 stat.ML, cs.IT, cs.LG, math.IT, stat.CO

arXiv PDF

📄 Tighter CMI-Based Generalization Bounds via Stochastic Projection and Quantization

2025-10-29

Авторы:

Milad Sefidgaran, Kimia Nadjahi, Abdellatif Zaidi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In this paper, we leverage stochastic projection and lossy compression to establish new conditional mutual information (CMI) bounds on the generalization error of statistical learning algorithms. It is shown that these bounds are generally tighter than the existing ones. In particular, we prove that for certain problem instances for which existing MI and CMI bounds were recently shown in Attias et al. [2024] and Livni [2023] to become vacuous or fail to describe the right generalization behavior...

ID: 2510.23485v1 stat.ML, cs.IT, cs.LG, math.IT

arXiv PDF

📄 How Patterns Dictate Learnability in Sequential Data

2025-10-16

Авторы:

Mario Morawski, Anais Despres, Rémi Rehm

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Sequential data - ranging from financial time series to natural language - has driven the growing adoption of autoregressive models. However, these algorithms rely on the presence of underlying patterns in the data, and their identification often depends heavily on human expertise. Misinterpreting these patterns can lead to model misspecification, resulting in increased generalization error and degraded performance. The recently proposed evolving pattern (EvoRate) metric addresses this by using ...

ID: 2510.10744v1 stat.ML, cs.IT, cs.LG, math.IT

arXiv PDF

📄 On the Theory of Continual Learning with Gradient Descent for Neural Networks

2025-10-12

Авторы:

Hossein Taheri, Avishek Ghosh, Arya Mazumdar

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Continual learning, the ability of a model to adapt to an ongoing sequence of tasks without forgetting the earlier ones, is a central goal of artificial intelligence. To shed light on its underlying mechanisms, we analyze the limitations of continual learning in a tractable yet representative setting. In particular, we study one-hidden-layer quadratic neural networks trained by gradient descent on an XOR cluster dataset with Gaussian noise, where different tasks correspond to different clusters ...

ID: 2510.05573v1 stat.ML, cs.IT, cs.LG, math.IT

arXiv PDF

📄 First-Extinction Law for Resampling Processes

2025-09-26

Авторы:

Matteo Benati, Alessandro Londei, Denise Lanzieri, Vittorio Loreto

## Контекст Результат процесса ресамплинга (resampling), когда количество групп (или элементов внутри каждой группы) становится равным нулю, называется first-extinction time. Оценка этого времени чрезвычайно важной задачей в различных областях, таких как адаптивные системы, генетика популяций и машинное обучение. Однако существующие формулы, оценивающие это время, вычисляются с использованием теории марковских процессов, требующей вычислений типа $2^M$, где $M$ — количество состояний в начальном распределении вероятностей. Это делает данные вычисления неэффективными для больших $M$ и, следовательно, требует развития более эффективных методов. ## Метод Мы применяем анализ стохастических процессов для решения этой проблемы. Образующийся стохастический процесс, инвариантный к ресамплингу, моделируется как сумма двух независимых квадратно-корнячных диффузий с нулевым приращением. Это позволяет получить замыкающую формулу для first-extinction time, где математическое ожидание вычисляется с линейной сложностью $O(M)$ вместо экспоненциальной $O(2^M)$. Метод основывается на связи между эволюционным диффузионным процессом и теорией марковских процессов с локальным управлением. ## Результаты Мы проверяем нашу формулу на различных ситуациях в симуляционном режиме. Для этого используем различные начальные распределения вероятностей, включая те, что имеют значительное количество состояний $M$. Результаты воспроизводятся в замыкающих формулах, подтверждающих точность вычислений. Это доказывает, что наш метод эффективно моделирует first-extinction time, даже при больших $M$. ## Значимость Наш метод может применяться в следующих областях: - Адаптивные системы (например, автоматические методы селекции в машинном обучении); - Моделирование эволюционных процессов (например, мутации и вымирание в популяциях); - Развитие теории моделирования в системах с коллапсом модели (model collapse), такого как в реплитных сетях (replicator networks). Преимущество нашего подхода заключается в существенном уменьшении вычислительной сложности по сравнению с традиционными методами. Это позволяет увеличить скорость вычислений и расширить масштаб удаленного моделирования. Будущие исследования будут сфокусированы на расширении данного подхода к более сложным ситуациям, включая нелинейные диффузионные процессы. ## Выводы Мы представляем метод, позволяющий вычислить first-extinction time в процессах ресамплинга с линейной сложностью. Этот подход эффективно моделирует процессы, связанные с модельным коллапсом, и пока

Annotation:

Extinction times in resampling processes are fundamental yet often intractable, as previous formulas scale as $2^M$ with the number of states $M$ present in the initial probability distribution. We solve this by treating multinomial updates as independent square-root diffusions of zero drift, yielding a closed-form law for the first-extinction time. We prove that the mean coincides exactly with the Wright-Fisher result of Baxter et al., thereby replacing exponential-cost evaluations with a linea...

ID: 2509.20101v1 stat.ML, cs.IT, cs.LG, math.IT, math.ST, physics.data-an, q-bio.PE, stat.TH

arXiv PDF

📄 The Price of Sparsity: Sufficient Conditions for Sparse Recovery using Sparse and Sparsified Measurements

2025-09-05

Авторы:

Youssef Chaabouni, David Gamarnik

#### Контекст В области оценивания свойств сигналов и систем важной задачей является восстановление спарселенных сигналов с использованием проекций, записанных в спарселенных матрицах. Это применимо, например, в сигнальных обработке, компрессии данных и анализе сигналов в физике и биологии. Существующие результаты касаются ситуаций, когда матрицы проекций являются плотными, но менее изучены ситуации, когда матрицы являются спарселенными. Такой недостаток мотивирует изучение характеристик восстановления спарселенных сигналов при использовании спарселенных проекций. #### Метод Мы рассматриваем задачу восстановления спарселенного сигнала с использованием спарселенных и спарселенных проекций. Методология основывается на анализе характеристик сигнала и подхода к проекции. Технические решения включают анализ матриц проекции и анализ того, как выбор размерности и спарселенности влияет на восстановление сигнала. Архитектура экспериментального подхода основывается на моделировании сигналов с разными спарселенностями и спарселенными проекций, а также на анализе полученных результатов. #### Результаты Изучение показало, что для успешного восстановления спарселенных сигналов при использовании спарселенных проекций необходима определенная доля выборок. Находится информационно-теоретическая граница для успешного восстановления, которая зависит от размера сигнала, числа ненулевых компонент и спарселенности подмножеств проекций. Эксперименты показывают, что при $ds/p \rightarrow +\infty$, требуемая выборка растет в соотношении $\log{s}/\log\left(ds/p\right)$, что демонстрирует торговую марку между простотой матрицы проекции и необходимостью выборки. Также исследуется влияние спарселенности на восстановление сигнала в случае спарселенных матриц. #### Значимость Результаты имеют применение в системах сжатия данных, сигнальной обработке и анализе сигналов в физике и биологии. Они демонстрируют, как можно эффективно использовать спарселенные проекции для восстановления спарселенных сигналов, но при этом показывают торговую марку между спарселенностью и выборкой. Это делает полученные результаты важными для технических применений, где необходимо оптимально сбалансировать сложность вычислений и качество восстановления. #### Выводы Мы установили оптимальные условия для восстановления спарселенных сигналов при использовании спарселенных проекций. Наша работа демонстрирует торговую марку между спарселенностью матрицы проекции и необходимостью выборки. Будущие исследования будут сосредоточ

Annotation:

We consider the problem of recovering the support of a sparse signal using noisy projections. While extensive work has been done on the dense measurement matrix setting, the sparse setting remains less explored. In this work, we establish sufficient conditions on the sample size for successful sparse recovery using sparse measurement matrices. Bringing together our result with previously known necessary conditions, we discover that, in the regime where $ds/p \rightarrow +\infty$, sparse recovery...

ID: 2509.01809v1 stat.ML, cs.IT, cs.LG, math.IT, math.ST, stat.TH

arXiv PDF