📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Crowdsourcing Without People: Modelling Clustering Algorithms as Experts

2025-10-03

Авторы:

Jordyn E. A. Lorentz, Katharine M. Clark

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper introduces mixsemble, an ensemble method that adapts the Dawid-Skene model to aggregate predictions from multiple model-based clustering algorithms. Unlike traditional crowdsourcing, which relies on human labels, the framework models the outputs of clustering algorithms as noisy annotations. Experiments on both simulated and real-world datasets show that, although the mixsemble is not always the single top performer, it consistently approaches the best result and avoids poor outcomes....

ID: 2509.25395v1 cs.LG, stat.ME

arXiv PDF

📄 Conservative Decisions with Risk Scores

2025-10-02

Авторы:

Yishu Wei, Wen-Yee Lee, George Ekow Quaye, Xiaogang Su

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In binary classification applications, conservative decision-making that allows for abstention can be advantageous. To this end, we introduce a novel approach that determines the optimal cutoff interval for risk scores, which can be directly available or derived from fitted models. Within this interval, the algorithm refrains from making decisions, while outside the interval, classification accuracy is maximized. Our approach is inspired by support vector machines (SVM), but differs in that it m...

ID: 2509.25588v1 stat.ML, cs.LG, stat.ME, 62H30, 62G05, 62P10, I.5.2; I.2.6

arXiv PDF

📄 Coupling Generative Modeling and an Autoencoder with the Causal Bridge

2025-10-02

Авторы:

Ruolin Meng, Ming-Yu Chung, Dhanajit Brahma, Ricardo Henao, Lawrence Carin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We consider inferring the causal effect of a treatment (intervention) on an outcome of interest in situations where there is potentially an unobserved confounder influencing both the treatment and the outcome. This is achievable by assuming access to two separate sets of control (proxy) measurements associated with treatment and outcomes, which are used to estimate treatment effects through a function termed the em causal bridge (CB). We present a new theoretical perspective, associated assumpti...

ID: 2509.25599v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 Characterization and Learning of Causal Graphs with Latent Confounders and Post-treatment Selection from Interventional Data

2025-10-02

Авторы:

Gongxu Luo, Loka Li, Guangyi Chen, Haoyue Dai, Kun Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Interventional causal discovery seeks to identify causal relations by leveraging distributional changes introduced by interventions, even in the presence of latent confounders. Beyond the spurious dependencies induced by latent confounders, we highlight a common yet often overlooked challenge in the problem due to post-treatment selection, in which samples are selectively included in datasets after interventions. This fundamental challenge widely exists in biological studies; for example, in gen...

ID: 2509.25800v1 cs.LG, stat.ME

arXiv PDF

📄 Preference-Based Dynamic Ranking Structure Recognition

2025-10-01

Авторы:

Nan Lu, Jian Shi, Xin-Yu Tian

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Preference-based data often appear complex and noisy but may conceal underlying homogeneous structures. This paper introduces a novel framework of ranking structure recognition for preference-based data. We first develop an approach to identify dynamic ranking groups by incorporating temporal penalties into a spectral estimation for the celebrated Bradley-Terry model. To detect structural changes, we introduce an innovative objective function and present a practicable algorithm based on dynamic ...

ID: 2509.24493v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 End-to-End Deep Learning for Predicting Metric Space-Valued Outputs

2025-10-01

Авторы:

Yidong Zhou, Su I Iao, Hans-Georg Müller

## Контекст Одним из основных задач регрессии является предсказание пространственно-векторных выходных данных, которые носят структурированный характер, например, вектора, матрицы или даже сети. Однако, существуют ситуации, когда выходные данные естественным образом моделируются как элементы геометрических пространств, не являющихся векторными (например, группы симметричноопределенных матриц плюс или функциональные пространства). Традиционные методы регрессии, опирающиеся на векторное пространство, не могут быть применены в таких случаях. Это создает необходимость в разработке методов, способных эффективно работать в метрических пространствах. Таким образом, задача предсказания выходных данных в метрических пространствах является важной и актуальной в многих областях, включая машинное обучение, анализ данных, геометрию и др. ## Метод Мы предлагаем **End-to-End Metric Regression (E2M)**, новую архитектуру глубокого обучения, предназначенную для решения задач регрессии в метрических пространствах. Основная идея E2M заключается в использовании **взвешенных фрактельных средних** (Fréchet means) для предсказания выходных данных. Эти взвешенные средние формируются с помощью нейронной сети, которая вычисляет веса на основе входных данных. Эти веса определяют вклад каждого элемента множества выходных данных в финальное предсказание. Таким образом, E2M позволяет гибко адаптироваться к геометрии пространства выходных данных, не прибегая к ограничивающим параметрическим моделям. Метод E2M также включает в себя регуляризацию энтропии, чтобы обеспечить устойчивость и повысить точность предсказания в условиях неопределенности. ## Результаты Мы провели обширные эксперименты с различными типами метрических пространств, включая пространство вероятностных распределений, пространство сетей и пространство симметрично определенных матриц. Мы сравнивали E2M с другими методами регрессии, включая традиционные и те, которые используют параметрические модели. Наши результаты показывают, что E2M показывает высокую точность и стабильность в предсказании выходных данных. Мы также проводили эксперименты на реальных данных, включая данные о человеческих распределениях смертности и сетях транспорта Нью-Йорка. В этих случаях E2M демонстрировал значительные преимущества по сравнению с другими методами. ## Значимость Предложенная модель E2M имеет широкие приложения в области предсказания структурированных данных, включая прогнозирование распределений, анализ сетей, моделирование геометрических объектов и др. Одним из основных

Annotation:

Many modern applications involve predicting structured, non-Euclidean outputs such as probability distributions, networks, and symmetric positive-definite matrices. These outputs are naturally modeled as elements of general metric spaces, where classical regression techniques that rely on vector space structure no longer apply. We introduce E2M (End-to-End Metric regression), a deep learning framework for predicting metric space-valued outputs. E2M performs prediction via a weighted Fr\'echet me...

ID: 2509.23544v1 stat.ML, cs.AI, cs.LG, stat.ME

arXiv PDF

📄 Unsupervised Domain Adaptation with an Unobservable Source Subpopulation

2025-09-27

Авторы:

Chao Ying, Jun Jin, Haotian Zhang, Qinglong Tian, Yanyuan Ma, Yixuan Li, Jiwei Zhao

## Контекст Унитарное адаптирование доменов (UDA) — задача, которая возникает при передаче знаний между доменами, когда метки целевого домена отсутствуют. Одной из самых сложных проблем в этой области является отсутствие части исходного домена, которая не может быть наблюдаема в целевом домене. Это отсутствие может привести к неточным оценкам и ухудшенной прогностической способности. Например, в сферах, таких как медицина или финансы, некоторые подгруппы исходных данных могут быть недоступны в целевой выборке из-за экономических, социальных или технических ограничений. Необходимо разработать методы, которые могут учитывать такое отсутствие и по-прежнему оказывать полезные прогнозы. ## Метод Мы предлагаем метод, который строит модели для целевого домена, учитывая отсутствие части исходного домена. Метод основывается на теории многообразий, которая позволяет описать спектр возможных значений в данных. Для разделения выборки на подгруппы мы используем бинарные метки $Y$ (зависимость) и $A$ (окружение). Метод разбирает выборку на области, в которых отсутствует подгруппа, и оценивает ее влияние через распределения. Для этого мы используем техники распределения, которые позволяют прогнозировать итоговую модель на основе недостающих данных. Также мы используем теорию метода наименьших квадратов, чтобы установить зависимости между подгруппами и получить обобщающую модель. ## Результаты Мы проводили эксперименты на синтетических и реальных данных. На синтетических данных показали, что наш метод превосходит традиционные методы, которые не учитывают отсутствующую подгруппу. На реальных данных, таких как данные по распределению ликвидности в финансовой сфере, метод демонстрирует значительное улучшение прогнозных моделей по сравнению с методами, не учитывающими отсутствующую подгруппу. Также мы проверили точность нашего метода на данных, где отсутствуют данные о некоторых подгруппах. ## Значимость Наш метод может применяться в сферах, где отсутствуют части исходных данных из-за технических или экономических ограничений. Например, он может быть использован для прогноза финансовых рисков, где некоторые подгруппы системы могут быть недоступны в целевой выборке. Метод предлагает существенные преимущества по сравнению с традиционными подходами, так как он учитывает отсутствующие подгруппы и обеспечивает более точные экстраполяционные модели. Это может привести к более точным прогнозам и эффективному применению методов UDA в реальных условиях. ## Выводы Мы успешно разработали метод

Annotation:

We study an unsupervised domain adaptation problem where the source domain consists of subpopulations defined by the binary label $Y$ and a binary background (or environment) $A$. We focus on a challenging setting in which one such subpopulation in the source domain is unobservable. Naively ignoring this unobserved group can result in biased estimates and degraded predictive performance. Despite this structured missingness, we show that the prediction in the target domain can still be recovered....

ID: 2509.20587v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 A Hierarchical Variational Graph Fused Lasso for Recovering Relative Rates in Spatial Compositional Data

2025-09-27

Авторы:

Joaquim Valerio Teixeira, Ed Reznik, Sudpito Banerjee, Wesley Tansey

## Контекст Анализ спациальных данных, полученных с помощью биологических импульсных технологий, таких как импульсная масс-спектрометрия (IMS) и импульсная масс-цитометрия (IMC), представляет собой сложную задачу из-за спонтанного объединения сигналов от разных молекул в каждом пикселе изображения. Это приводит к существенным ограничениям в точности интерпретации данных и выявлении активных регионов. Для устранения этих проблем, разработана программная модель, основанная на графическом лассо, которая позволяет оценивать относительные скорости взаимодействия между молекулами в пространстве, восстанавливая достоверные характеристики всего изображения. Эта модель включает в себя новую графическую модель спарсинга, которая позволяет адаптироваться к сложностям, связанным с неопределенностью в исходных данных. ## Метод Метод представляет собой новую графическую модель спарсинга, основанную на графическом лассо с высокой тяжестью. Модель включает в себя нелинейные связи между пикселями, чтобы представить спатиальные сигналы. Для восстановления относительных скоростей использована новая модель вариационного семейства, позволяющая эффективно оценивать параметры данных. Эта модель адаптирована для автоматического процесса обучения через автоматическое разностное интерполирование, что позволяет сделать процесс вычислений более эффективным и точным. Модель также использует специальную графическую модель для учета нерегулярных сигналов, которая позволяет стабилизировать результаты и уменьшить шум. ## Результаты В ходе экспериментов был проведен сравнительный анализ метода с другими существующими методами. Было проанализировано набор симуляционных данных, а также данные в реальных условиях, полученные с использованием IMS. Результаты показали, что данный подход дает более точные оценки относительных скоростей в сравнении с методами, основанными на точных оценках. Также было получено улучшение в построении анатомической структуры изображений, а также удаление ненужных артефактов. Этот подход также удалось выявить активные регионы, которые были пропущены стандартными аналитическими методами. ## Значимость Метод может быть применен в различных областях, включая биологическое импульсное зрение, геологический анализ, а также в других сферах, где требуется точное восстановление пространственных сигналов. Особым преимуществом является улучшение точности оценки относительных скоростей и увеличение достоверности результатов. Этот подход также может быть эффективным для определения активных регионов, которые были

Annotation:

The analysis of spatial data from biological imaging technology, such as imaging mass spectrometry (IMS) or imaging mass cytometry (IMC), is challenging because of a competitive sampling process which convolves signals from molecules in a single pixel. To address this, we develop a scalable Bayesian framework that leverages natural sparsity in spatial signal patterns to recover relative rates for each molecule across the entire image. Our method relies on the use of a heavy-tailed variant of the...

ID: 2509.20636v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 WISER: Segmenting watermarked region - an epidemic change-point perspective

2025-09-27

Авторы:

Soham Bonnerjee, Sayar Karmakar, Subhrajyoty Roy

## Контекст Современные технологии позволяют генерировать текст с помощью глубоких нейронных сетей, превратив это в повседневный инструмент. Однако это привело к повышению вопросов о подлинности генерируемого контента. Watermarking стало популярным методом для доказательства владения текстом или его происхождения. Однако определение, какие фрагменты текста являются watermarked, является сложным заданием, особенно когда текст перепишен или модифицирован. Нарастающий интерес к этой задаче побудил авторов разработать новый подход к watermark segmentation с использованием эпидемических change-points. ## Метод Предложенный подход, WISER (Watermark Segmentation via Epidemic Change-points), основывается на методах эпидемических change-points, которые были доминировали в статистической обработке данных. WISER рассматривает watermarking как вирусное распространение информации в тексте. Алгоритм использует функции, которые позволяют находить точки, где появляются водяные знаки, а также определять, какие части текста являются watermarked. Алгоритм имеет высокую эффективность и теоретически доказанную точность. ## Результаты Авторы проверили WISER на нескольких benchmark-датасетах, включающих различные варианты водяных знаков. Алгоритм показал высокую точность в локализации watermarked сегментов и опередил существующие методы в скорости и точности. Эксперименты подтвердили, что WISER может эффективно обрабатывать тексты с разными водяными знаками и парафразированным контентом. ## Значимость WISER может использоваться в различных сферах, где требуется установить подлинность или владение текстом, таких как защита авторских прав, борьба с нежелательным контентом или проверка нейрогенерируемого текста. Он предлагает выгоды в скорости выполнения и точности сравнения с остальными методами. Этот подход может стать важной частью технологий, применяемых в компьютерных зрении, естественном языковом обработке и дальнейшем развитии машинного обучения. ## Выводы Авторы успешно показали, что WISER является эффективным инструментом для watermark segmentation. Он основывается на теоретической легитимности и вы most-setting. В будущем, WISER может быть развит для обработки более сложных случаев watermarking, включая нейрогенерируемый текст с сильными модификациями.

Annotation:

With the increasing popularity of large language models, concerns over content authenticity have led to the development of myriad watermarking schemes. These schemes can be used to detect a machine-generated text via an appropriate key, while being imperceptible to readers with no such keys. The corresponding detection mechanisms usually take the form of statistical hypothesis testing for the existence of watermarks, spurring extensive research in this direction. However, the finer-grained probl...

ID: 2509.21160v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 Bilateral Distribution Compression: Reducing Both Data Size and Dimensionality

2025-09-26

Авторы:

Dominic Broadbent, Nick Whiteley, Robert Allison, Tom Lovett

#### Контекст Современные задачи анализа данных часто связаны с большими объемами данных, которые требуют эффективных методов для сжатия и упрощения. Одной из ключевых проблем является сохранение точности и структуры исходной информации при сжатии. Наиболее распространенные методы сжатия ориентированы на минимизацию расстояния между исходными и сжатыми данными в одной области. Однако некоторые данные характеризуются высокой мерностью и большим размером выборки, что способствует появлению ряда технических и вычислительных сложностей. Это задание направлено на разработку методики, максимально эффективно сжимающей данные как по объему, так и по размерности, сохраняя их оригинальные свойства. #### Метод Метод, предложенный в статье, называется Bilateral Distribution Compression (BDC). Это двухстадийная архитектура, которая адресует проблему сжатия как по размерности, так и по объему. В первой стадии используется Reconstruction MMD (RMMD) для выявления низкоразмерной проекции, оптимизированной с целью сохранения информации о данных. Во второй стадии эта проекция используется для оптимизации Encoded MMD (EMMD), чтобы сжатый набор данных гарантированно отражал исходное распределение. Решение основывается на Decoded MMD (DMMD), который измеряет расстояние между исходными данными и сжатыми проекциями. Это разработанный подход позволяет сократить объем и размерность данных с минимальным ущербным влиянием на их структуру и характеристики. #### Результаты Исследования проводились на различных типах данных, включая синтетические и реальные многомерные выборки. Результаты показали, что BDC достигает поразительного сжатия данных с сохранением высокой точности. Он сравнился с существующими методами сжатия, в том числе Ambient-space Compression, и показал сильное преимущество в скорости и эффективности. Эксперименты подтвердили, что BDC достигает похожих или лучших результатов с меньшим вычислительным и памятным влиянием. #### Значимость BDC может применяться в различных областях, где требуется эффективное сжатие данных, например, в машинном обучении, статистике и анализе больших данных. Преимущества BDC заключаются в своей гибкости, удобстве реализации и высокой эффективности. Он позволяет значительно сократить затраты на обработку и хранение данных без потери информационной работоспособности. Это может привести к улучшению производительности на уровне систем, повышению экономичности в предметных областях и ускорению задач обработки данных. #### Выводы Разработанный подход BDC доказал свою эффективность в сжатии данных с сохранением их свойств. Он готов к применению в различ

Annotation:

Existing distribution compression methods reduce dataset size by minimising the Maximum Mean Discrepancy (MMD) between original and compressed sets, but modern datasets are often large in both sample size and dimensionality. We propose Bilateral Distribution Compression (BDC), a two-stage framework that compresses along both axes while preserving the underlying distribution, with overall linear time and memory complexity in dataset size and dimension. Central to BDC is the Decoded MMD (DMMD), wh...

ID: 2509.17543v3 stat.ML, cs.LG, stat.ME

arXiv PDF

Показано 51 - 60 из 87 записей