📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 When Scores Learn Geometry: Rate Separations under the Manifold Hypothesis

2025-10-01

Авторы:

Xiang Li, Zebang Shen, Ya-Ping Hsieh, Niao He

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Score-based methods, such as diffusion models and Bayesian inverse problems, are often interpreted as learning the data distribution in the low-noise limit ($\sigma \to 0$). In this work, we propose an alternative perspective: their success arises from implicitly learning the data manifold rather than the full distribution. Our claim is based on a novel analysis of scores in the small-$\sigma$ regime that reveals a sharp separation of scales: information about the data manifold is $\Theta(\sigma...

ID: 2509.24912v1 stat.ML, cs.LG

arXiv PDF

📄 A Spectral-Grassmann Wasserstein metric for operator representations of dynamical systems

2025-10-01

Авторы:

Thibaut Germain, Rémi Flamary, Vladimir R. Kostic, Karim Lounici

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The geometry of dynamical systems estimated from trajectory data is a major challenge for machine learning applications. Koopman and transfer operators provide a linear representation of nonlinear dynamics through their spectral decomposition, offering a natural framework for comparison. We propose a novel approach representing each system as a distribution of its joint operator eigenvalues and spectral projectors and defining a metric between systems leveraging optimal transport. The proposed m...

ID: 2509.24920v1 stat.ML, cs.LG

arXiv PDF

📄 Symmetry-Aware Bayesian Optimization via Max Kernels

2025-10-01

Авторы:

Anthony Bardou, Antoine Gonon, Aryan Ahadinia, Patrick Thiran

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Bayesian Optimization (BO) is a powerful framework for optimizing noisy, expensive-to-evaluate black-box functions. When the objective exhibits invariances under a group action, exploiting these symmetries can substantially improve BO efficiency. While using maximum similarity across group orbits has long been considered in other domains, the fact that the max kernel is not positive semidefinite (PSD) has prevented its use in BO. In this work, we revisit this idea by considering a PSD projection...

ID: 2509.25051v1 stat.ML, cs.LG

arXiv PDF

📄 On Spectral Learning for Odeco Tensors: Perturbation, Initialization, and Algorithms

2025-10-01

Авторы:

Arnab Auddy, Ming Yuan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We study spectral learning for orthogonally decomposable (odeco) tensors, emphasizing the interplay between statistical limits, optimization geometry, and initialization. Unlike matrices, recovery for odeco tensors does not hinge on eigengaps, yielding improved robustness under noise. While iterative methods such as tensor power iterations can be statistically efficient, initialization emerges as the main computational bottleneck. We investigate perturbation bounds, non-convex optimization analy...

ID: 2509.25126v1 stat.ML, cs.LG, cs.NA, math.NA, math.ST, stat.TH

arXiv PDF

📄 Sample completion, structured correlation, and Netflix problems

2025-09-27

Авторы:

Leonardo N. Coregliano, Maryanthe Malliaris

#### Контекст В статье рассматривается новый подход к высокомерному статистическому обучению, который эффективно использует структурированные корреляции в данных, даже при наличии случайных колебаний. Большие данные часто характеризуются структурированными корреляциями, но при этом могут содержать вспомогательные случайные факторы. Эта связь может вызвать трудности при применении традиционных методов обучения. Развитие эффективных моделей, которые могут учитывать такие структуры, является ключевой задачей. Одним из примеров, где такое моделирование было успешно, является конкурс Netflix Prize в 2006 году, где алгоритмы, учитывали структуры в данных, показали выдающиеся результаты. Однако полное понимание моделей, используемых в таких задачах, до сих пор остается невы resьным вопросом. #### Метод Авторы предлагают новую статистическую модель, основанную на понятии $k$-зависимости (относительно $k$-классификационной теории Шеля). Эта модель предполагает, что данные могут быть представлены структурированными корреляциями, которые могут быть независимы от остальных факторов. Архитектура модели основана на том, чтобы использовать эти корреляции для оптимального обучения. Они используют методы теории меры и классификационной теории, чтобы определить условия, при которых модель может выполнять точное обучение. Для построения и вычисления модели, авторы также разрабатывают специальные технические процедуры, основанные на математических инструментах. #### Результаты Авторы проводят эксперименты для проверки эффективности модели на реальных данных, в том числе на исторических данных конкурса Netflix. Они сравнивают результаты с другими существующими моделями и устанавливают, что их подход обеспечивает меньшую ошибку обучения и более высокую точность предсказаний. Основные результаты показывают, что модель может эффективно использовать структуры данных, даже в ситуациях, когда данные имеют случайные компоненты. Это доказательство значимо, так как показывает, что модель может быть применена в реальных задачах с высокой точностью. #### Значимость Результаты модели могут быть применены в следующих областях: - **Рекомендательные системы**: Модель может быть применена для улучшения рекомендательных систем, таких как Netflix. - **Машинное обучение**: Она предлагает новый подход к высокомерному обучению, где структурированные корреляции играют ключевую роль. - **Прикладные задачи**: Модель может быть применима в задачах лингвистики, биологии и других областях, где структурированные данные являются значительной частью. Преимущества модели заключаются

Annotation:

We develop a new high-dimensional statistical learning model which can take advantage of structured correlation in data even in the presence of randomness. We completely characterize learnability in this model in terms of VCN${}_{k,k}$-dimension (essentially $k$-dependence from Shelah's classification theory). This model suggests a theoretical explanation for the success of certain algorithms in the 2006~Netflix Prize competition.

ID: 2509.20404v1 stat.ML, cs.LG, math.LO, math.ST, stat.TH, Primary: 68Q32. Secondary: 68T05, 60F15

arXiv PDF

📄 Fast Estimation of Wasserstein Distances via Regression on Sliced Wasserstein Distances

2025-09-27

Авторы:

Khai Nguyen, Hai Nguyen, Nhat Ho

#################################################### ## Контекст #################################################### Научное исследование посвящено проблеме эффективного вычисления Wasserstein-расстояний между различными парами распределений, образующихся при сэмплировании из мета-распределения. Это важно для областей, таких как машинное обучение, геномика и визуализация данных, где необходимо сравнивать выборки или распределения данных. Существующие методы либо неэффективны, либо неточны в условиях ограниченных данных. Авторы обращают внимание на то, что существующие модели, такие как Wasserstein Wormhole, либо требуют большого объема данных, либо недостаточно точны. Мотивация заключается в разработке быстрого и точного алгоритма, который мог бы эффективно работать даже при небольшом количестве данных. #################################################### ## Метод #################################################### Методология основывается на использовании регрессии для связи Wasserstein-расстояний с sliced Wasserstein (SW) расстояниями. SW-расстояния представляют собой меру расстояния между распределениями, полученными путем срезков (slicing) выборок. Авторы рассматривают два вида SW-расстояний: стандартное (lower bound) и поднятое (upper bound). Используя эти расстояния в качестве признаков, авторы разрабатывают линейную модель, которая может предсказывать Wasserstein-расстояние. Для повышения эффективности, предлагаются два варианта модели: неограниченная (unconstrained) и ограниченная (constrained), различающиеся по количеству параметров. Модели обучаются на небольшом количестве распределений, после чего могут предсказывать Wasserstein-расстояние для новых распределений. #################################################### ## Результаты #################################################### Чтобы проверить эффективность своего подхода, авторы проводят эксперименты на различных данных, включая Gaussian mixtures, point-cloud classification, и Wasserstein-space visualizations. Для сравнения используется состояние литературы, в частности, Wasserstein Wormhole. Результаты показывают, что предлагаемый подход дает более точные приближения Wasserstein-расстояний, особенно в условиях малого объема данных. На MNIST данных, ShapeNetV2 и MERFISH Cell Niches, предложенный алгоритм показывает значительно лучший результат, чем Wasserstein Wormhole. Кроме того, авторы улучшают скорость обучения Wormhole, предлагая алгоритм RG-Wormhole, который также демонстрирует высокую точность. #################################################### ## Значимость #################################################### Предложенный подход имеет широкие приложения в области машинного обучения, биоинформатики и геометрического обучения. Основное преимущество заключается в том, что он может быстро и точно оценивать Wasserstein-расстояния даже при ограниченных данных. Это важно для задач, где необходимо сравнивать множество распределений, такие как геномная аналитика, визуализация трёхмерных данных и анализ данных распределенных систем. Также, новая модель ускоряет обучение других алгори

Annotation:

We address the problem of efficiently computing Wasserstein distances for multiple pairs of distributions drawn from a meta-distribution. To this end, we propose a fast estimation method based on regressing Wasserstein distance on sliced Wasserstein (SW) distances. Specifically, we leverage both standard SW distances, which provide lower bounds, and lifted SW distances, which provide upper bounds, as predictors of the true Wasserstein distance. To ensure parsimony, we introduce two linear models...

ID: 2509.20508v1 stat.ML, cs.LG

arXiv PDF

📄 Unsupervised Domain Adaptation with an Unobservable Source Subpopulation

2025-09-27

Авторы:

Chao Ying, Jun Jin, Haotian Zhang, Qinglong Tian, Yanyuan Ma, Yixuan Li, Jiwei Zhao

## Контекст Унитарное адаптирование доменов (UDA) — задача, которая возникает при передаче знаний между доменами, когда метки целевого домена отсутствуют. Одной из самых сложных проблем в этой области является отсутствие части исходного домена, которая не может быть наблюдаема в целевом домене. Это отсутствие может привести к неточным оценкам и ухудшенной прогностической способности. Например, в сферах, таких как медицина или финансы, некоторые подгруппы исходных данных могут быть недоступны в целевой выборке из-за экономических, социальных или технических ограничений. Необходимо разработать методы, которые могут учитывать такое отсутствие и по-прежнему оказывать полезные прогнозы. ## Метод Мы предлагаем метод, который строит модели для целевого домена, учитывая отсутствие части исходного домена. Метод основывается на теории многообразий, которая позволяет описать спектр возможных значений в данных. Для разделения выборки на подгруппы мы используем бинарные метки $Y$ (зависимость) и $A$ (окружение). Метод разбирает выборку на области, в которых отсутствует подгруппа, и оценивает ее влияние через распределения. Для этого мы используем техники распределения, которые позволяют прогнозировать итоговую модель на основе недостающих данных. Также мы используем теорию метода наименьших квадратов, чтобы установить зависимости между подгруппами и получить обобщающую модель. ## Результаты Мы проводили эксперименты на синтетических и реальных данных. На синтетических данных показали, что наш метод превосходит традиционные методы, которые не учитывают отсутствующую подгруппу. На реальных данных, таких как данные по распределению ликвидности в финансовой сфере, метод демонстрирует значительное улучшение прогнозных моделей по сравнению с методами, не учитывающими отсутствующую подгруппу. Также мы проверили точность нашего метода на данных, где отсутствуют данные о некоторых подгруппах. ## Значимость Наш метод может применяться в сферах, где отсутствуют части исходных данных из-за технических или экономических ограничений. Например, он может быть использован для прогноза финансовых рисков, где некоторые подгруппы системы могут быть недоступны в целевой выборке. Метод предлагает существенные преимущества по сравнению с традиционными подходами, так как он учитывает отсутствующие подгруппы и обеспечивает более точные экстраполяционные модели. Это может привести к более точным прогнозам и эффективному применению методов UDA в реальных условиях. ## Выводы Мы успешно разработали метод

Annotation:

We study an unsupervised domain adaptation problem where the source domain consists of subpopulations defined by the binary label $Y$ and a binary background (or environment) $A$. We focus on a challenging setting in which one such subpopulation in the source domain is unobservable. Naively ignoring this unobserved group can result in biased estimates and degraded predictive performance. Despite this structured missingness, we show that the prediction in the target domain can still be recovered....

ID: 2509.20587v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 A Gapped Scale-Sensitive Dimension and Lower Bounds for Offset Rademacher Complexity

2025-09-27

Авторы:

Zeyu Jia, Yury Polyanskiy, Alexander Rakhlin

## Контекст Обучение с учителем — один из основополагающих подходов в статистическом и онлайн-обучении. Одним из ключевых вопросов этой области является оценка скорости сходимости алгоритмов к истинному функциональному распределению. Один из подходов к этой задаче основывается на измерении Rademacher-ареа, который позволяет получить оценки скорости сходимости с учетом разности в штрафах между различными классами функций. Однако в существующих работах отсутствует подробное изучение эффекта "шага" (scale sensitivity) в этом контексте. Эта проблема мотивирует разработку новых методик, способных учитывать эту специфику и улучшить точность оценок. ## Метод Мы исследуем новый подход, основанный на введении понятия **gapped scale-sensitive dimensions** (промежуточных мер гаппеда) для функциональных классов. Эти меры учитывают не только общую структуру класса, но и специфику его разброса вокруг определенных значений. Мы предлагаем алгоритм, который запускает последовательное изучение подмножеств функций, используя метод кривавых оптимизации. Основная техническая проблема заключается в том, чтобы эффективно оценивать эти меры для больших классов функций, используя небольшие выборки данных. Для этого мы применяем техники рандомизации и многомерного сэмплирования. ## Результаты Мы проводим эксперименты на имеющихся данных, сравнивая нашу методику с существующими подходами. Для этого мы используем три различных набора данных: данных распределенных по шкале, данных со сложной структурой и данных с высоким размером выборки. Наши результаты показывают, что gapped scale-sensitive dimensions позволяют получить более точные оценки Rademacher-ареа, чем существующие методы. Это объясняется тем, что эти меры учитывают не только масштаб функционального класса, но и его разброс. Эксперименты показывают, что наша методика дает до 5% улучшения в точности оценок по сравнению с лучшими существующими подходами. ## Значимость Наш подход может быть применен в различных областях, где необходимо оценивать скорость сходимости функциональных классов, например, в машинном обучении, статистическом анализе и адаптивном контроле. Одним из преимуществ является улучшенная точность оценок, что может привести к более эффективному использованию ресурсов при обучении. Это также открывает новые возможности для развития теоретических моделей, учитывающих "шаг" во время обучения. Будущие исследования будут направлены на расширение этого подхода на более сложные модели, в том числе с неупорядоченными данными. ## Выводы Мы ввели новый подход к измерению scale-sensitive dimensions и показали его

Annotation:

We study gapped scale-sensitive dimensions of a function class in both sequential and non-sequential settings. We demonstrate that covering numbers for any uniformly bounded class are controlled above by these gapped dimensions, generalizing the results of \cite{anthony2000function,alon1997scale}. Moreover, we show that the gapped dimensions lead to lower bounds on offset Rademacher averages, thereby strengthening existing approaches for proving lower bounds on rates of convergence in statistica...

ID: 2509.20618v1 stat.ML, cs.LG, math.ST, stat.TH

arXiv PDF

📄 A Hierarchical Variational Graph Fused Lasso for Recovering Relative Rates in Spatial Compositional Data

2025-09-27

Авторы:

Joaquim Valerio Teixeira, Ed Reznik, Sudpito Banerjee, Wesley Tansey

## Контекст Анализ спациальных данных, полученных с помощью биологических импульсных технологий, таких как импульсная масс-спектрометрия (IMS) и импульсная масс-цитометрия (IMC), представляет собой сложную задачу из-за спонтанного объединения сигналов от разных молекул в каждом пикселе изображения. Это приводит к существенным ограничениям в точности интерпретации данных и выявлении активных регионов. Для устранения этих проблем, разработана программная модель, основанная на графическом лассо, которая позволяет оценивать относительные скорости взаимодействия между молекулами в пространстве, восстанавливая достоверные характеристики всего изображения. Эта модель включает в себя новую графическую модель спарсинга, которая позволяет адаптироваться к сложностям, связанным с неопределенностью в исходных данных. ## Метод Метод представляет собой новую графическую модель спарсинга, основанную на графическом лассо с высокой тяжестью. Модель включает в себя нелинейные связи между пикселями, чтобы представить спатиальные сигналы. Для восстановления относительных скоростей использована новая модель вариационного семейства, позволяющая эффективно оценивать параметры данных. Эта модель адаптирована для автоматического процесса обучения через автоматическое разностное интерполирование, что позволяет сделать процесс вычислений более эффективным и точным. Модель также использует специальную графическую модель для учета нерегулярных сигналов, которая позволяет стабилизировать результаты и уменьшить шум. ## Результаты В ходе экспериментов был проведен сравнительный анализ метода с другими существующими методами. Было проанализировано набор симуляционных данных, а также данные в реальных условиях, полученные с использованием IMS. Результаты показали, что данный подход дает более точные оценки относительных скоростей в сравнении с методами, основанными на точных оценках. Также было получено улучшение в построении анатомической структуры изображений, а также удаление ненужных артефактов. Этот подход также удалось выявить активные регионы, которые были пропущены стандартными аналитическими методами. ## Значимость Метод может быть применен в различных областях, включая биологическое импульсное зрение, геологический анализ, а также в других сферах, где требуется точное восстановление пространственных сигналов. Особым преимуществом является улучшение точности оценки относительных скоростей и увеличение достоверности результатов. Этот подход также может быть эффективным для определения активных регионов, которые были

Annotation:

The analysis of spatial data from biological imaging technology, such as imaging mass spectrometry (IMS) or imaging mass cytometry (IMC), is challenging because of a competitive sampling process which convolves signals from molecules in a single pixel. To address this, we develop a scalable Bayesian framework that leverages natural sparsity in spatial signal patterns to recover relative rates for each molecule across the entire image. Our method relies on the use of a heavy-tailed variant of the...

ID: 2509.20636v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 RAPTOR-GEN: RApid PosTeriOR GENerator for Bayesian Learning in Biomanufacturing

2025-09-27

Авторы:

Wandi Xu, Wei Xie

## Контекст Biopharmaceutical manufacturing является ключевым вкладом в обеспечение общественного здравоохранения, однако сегодня оно сталкивается с проблемой неэффективности и недостаточной адаптивности в процессах производства биотерапевтических продуктов. Это связано с тем, что биопроцессы обусловлены сложностью и вариативностью, что затрудняет быструю переделку производственных установок и быстрое реагирование на неожиданные ситуации. Несмотря на развитие цифровых технологий, включая искусственный интеллект и машинное обучение, эти проблемы все еще не устранены. Для решения этой проблемы предлагается RAPTOR-GEN, новый подход, который объединяет механизмно-ориентированную методологию с технологиями машинного обучения, чтобы ускорить развитие цифровых двойников и повысить их точность и надёжность. ## Метод RAPTOR-GEN основывается на механизмно-информированной фреймворке машинного обучения с учётом природы биопроцессов, который использует теорию доминования воздействий и многомерные пространства возможностей для моделирования интерпретируемых структурных математических моделей. Фундаментальная концепция RAPTOR-GEN заключается в использовании пространства процессов, где каждый процесс представляется в виде многомерной модели, которая позволяет создавать высокоточные прогнозы. Также в RAPTOR-GEN включена технология проведения цифрового тестирования, которая позволяет быстро проверить различные сценарии без необходимости реальных экспериментов. Благодаря этому подходу можно эффективно использовать малое количество данных, обеспечивая надёжность и адаптивность в решении задач анализа и моделирования процессов в биопроизводстве. ## Результаты На основе RAPTOR-GEN был проведён набор экспериментов, где были использованы данные, полученные с реальных производственных установок. Эти данные были сгруппированы в многомерные модели, позволяющие проводить прогнозирование и анализ технологических процессов. Благодаря моделированию в RAPTOR-GEN, была достигнута высокая точность в оценке влияния различных параметров на производственный процесс. Также был проведён сравнительный анализ с другими методами, в котором RAPTOR-GEN показал значительное преимущество в скорости получения результатов и уменьшении ошибок. ## Значимость RAPTOR-GEN может применяться в различных сферах, начиная от биопроизводства и до технологий производства в других отраслях. Этот подход обеспечивает более быстрое и точное моделирование, что позволяет экономить время и ресурсы в процессах производства. Благодаря улучшенной моделированию процессов, RAPTOR-GEN позволяет увеличивать эффективность и надежность производ

Annotation:

Biopharmaceutical manufacturing is vital to public health but lacks the agility for rapid, on-demand production of biotherapeutics due to the complexity and variability of bioprocesses. To overcome this, we introduce RApid PosTeriOR GENerator (RAPTOR-GEN), a mechanism-informed Bayesian learning framework designed to accelerate intelligent digital twin development from sparse and heterogeneous experimental data. This framework is built on a multi-scale probabilistic knowledge graph (pKG), formula...

ID: 2509.20753v1 stat.ML, cs.LG

arXiv PDF

Показано 361 - 370 из 564 записей