📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Conservative Decisions with Risk Scores

2025-10-02

Авторы:

Yishu Wei, Wen-Yee Lee, George Ekow Quaye, Xiaogang Su

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In binary classification applications, conservative decision-making that allows for abstention can be advantageous. To this end, we introduce a novel approach that determines the optimal cutoff interval for risk scores, which can be directly available or derived from fitted models. Within this interval, the algorithm refrains from making decisions, while outside the interval, classification accuracy is maximized. Our approach is inspired by support vector machines (SVM), but differs in that it m...

ID: 2509.25588v1 stat.ML, cs.LG, stat.ME, 62H30, 62G05, 62P10, I.5.2; I.2.6

arXiv PDF

📄 Coupling Generative Modeling and an Autoencoder with the Causal Bridge

2025-10-02

Авторы:

Ruolin Meng, Ming-Yu Chung, Dhanajit Brahma, Ricardo Henao, Lawrence Carin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We consider inferring the causal effect of a treatment (intervention) on an outcome of interest in situations where there is potentially an unobserved confounder influencing both the treatment and the outcome. This is achievable by assuming access to two separate sets of control (proxy) measurements associated with treatment and outcomes, which are used to estimate treatment effects through a function termed the em causal bridge (CB). We present a new theoretical perspective, associated assumpti...

ID: 2509.25599v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 Preference-Based Dynamic Ranking Structure Recognition

2025-10-01

Авторы:

Nan Lu, Jian Shi, Xin-Yu Tian

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Preference-based data often appear complex and noisy but may conceal underlying homogeneous structures. This paper introduces a novel framework of ranking structure recognition for preference-based data. We first develop an approach to identify dynamic ranking groups by incorporating temporal penalties into a spectral estimation for the celebrated Bradley-Terry model. To detect structural changes, we introduce an innovative objective function and present a practicable algorithm based on dynamic ...

ID: 2509.24493v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 Unsupervised Domain Adaptation with an Unobservable Source Subpopulation

2025-09-27

Авторы:

Chao Ying, Jun Jin, Haotian Zhang, Qinglong Tian, Yanyuan Ma, Yixuan Li, Jiwei Zhao

## Контекст Унитарное адаптирование доменов (UDA) — задача, которая возникает при передаче знаний между доменами, когда метки целевого домена отсутствуют. Одной из самых сложных проблем в этой области является отсутствие части исходного домена, которая не может быть наблюдаема в целевом домене. Это отсутствие может привести к неточным оценкам и ухудшенной прогностической способности. Например, в сферах, таких как медицина или финансы, некоторые подгруппы исходных данных могут быть недоступны в целевой выборке из-за экономических, социальных или технических ограничений. Необходимо разработать методы, которые могут учитывать такое отсутствие и по-прежнему оказывать полезные прогнозы. ## Метод Мы предлагаем метод, который строит модели для целевого домена, учитывая отсутствие части исходного домена. Метод основывается на теории многообразий, которая позволяет описать спектр возможных значений в данных. Для разделения выборки на подгруппы мы используем бинарные метки $Y$ (зависимость) и $A$ (окружение). Метод разбирает выборку на области, в которых отсутствует подгруппа, и оценивает ее влияние через распределения. Для этого мы используем техники распределения, которые позволяют прогнозировать итоговую модель на основе недостающих данных. Также мы используем теорию метода наименьших квадратов, чтобы установить зависимости между подгруппами и получить обобщающую модель. ## Результаты Мы проводили эксперименты на синтетических и реальных данных. На синтетических данных показали, что наш метод превосходит традиционные методы, которые не учитывают отсутствующую подгруппу. На реальных данных, таких как данные по распределению ликвидности в финансовой сфере, метод демонстрирует значительное улучшение прогнозных моделей по сравнению с методами, не учитывающими отсутствующую подгруппу. Также мы проверили точность нашего метода на данных, где отсутствуют данные о некоторых подгруппах. ## Значимость Наш метод может применяться в сферах, где отсутствуют части исходных данных из-за технических или экономических ограничений. Например, он может быть использован для прогноза финансовых рисков, где некоторые подгруппы системы могут быть недоступны в целевой выборке. Метод предлагает существенные преимущества по сравнению с традиционными подходами, так как он учитывает отсутствующие подгруппы и обеспечивает более точные экстраполяционные модели. Это может привести к более точным прогнозам и эффективному применению методов UDA в реальных условиях. ## Выводы Мы успешно разработали метод

Annotation:

We study an unsupervised domain adaptation problem where the source domain consists of subpopulations defined by the binary label $Y$ and a binary background (or environment) $A$. We focus on a challenging setting in which one such subpopulation in the source domain is unobservable. Naively ignoring this unobserved group can result in biased estimates and degraded predictive performance. Despite this structured missingness, we show that the prediction in the target domain can still be recovered....

ID: 2509.20587v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 A Hierarchical Variational Graph Fused Lasso for Recovering Relative Rates in Spatial Compositional Data

2025-09-27

Авторы:

Joaquim Valerio Teixeira, Ed Reznik, Sudpito Banerjee, Wesley Tansey

## Контекст Анализ спациальных данных, полученных с помощью биологических импульсных технологий, таких как импульсная масс-спектрометрия (IMS) и импульсная масс-цитометрия (IMC), представляет собой сложную задачу из-за спонтанного объединения сигналов от разных молекул в каждом пикселе изображения. Это приводит к существенным ограничениям в точности интерпретации данных и выявлении активных регионов. Для устранения этих проблем, разработана программная модель, основанная на графическом лассо, которая позволяет оценивать относительные скорости взаимодействия между молекулами в пространстве, восстанавливая достоверные характеристики всего изображения. Эта модель включает в себя новую графическую модель спарсинга, которая позволяет адаптироваться к сложностям, связанным с неопределенностью в исходных данных. ## Метод Метод представляет собой новую графическую модель спарсинга, основанную на графическом лассо с высокой тяжестью. Модель включает в себя нелинейные связи между пикселями, чтобы представить спатиальные сигналы. Для восстановления относительных скоростей использована новая модель вариационного семейства, позволяющая эффективно оценивать параметры данных. Эта модель адаптирована для автоматического процесса обучения через автоматическое разностное интерполирование, что позволяет сделать процесс вычислений более эффективным и точным. Модель также использует специальную графическую модель для учета нерегулярных сигналов, которая позволяет стабилизировать результаты и уменьшить шум. ## Результаты В ходе экспериментов был проведен сравнительный анализ метода с другими существующими методами. Было проанализировано набор симуляционных данных, а также данные в реальных условиях, полученные с использованием IMS. Результаты показали, что данный подход дает более точные оценки относительных скоростей в сравнении с методами, основанными на точных оценках. Также было получено улучшение в построении анатомической структуры изображений, а также удаление ненужных артефактов. Этот подход также удалось выявить активные регионы, которые были пропущены стандартными аналитическими методами. ## Значимость Метод может быть применен в различных областях, включая биологическое импульсное зрение, геологический анализ, а также в других сферах, где требуется точное восстановление пространственных сигналов. Особым преимуществом является улучшение точности оценки относительных скоростей и увеличение достоверности результатов. Этот подход также может быть эффективным для определения активных регионов, которые были

Annotation:

The analysis of spatial data from biological imaging technology, such as imaging mass spectrometry (IMS) or imaging mass cytometry (IMC), is challenging because of a competitive sampling process which convolves signals from molecules in a single pixel. To address this, we develop a scalable Bayesian framework that leverages natural sparsity in spatial signal patterns to recover relative rates for each molecule across the entire image. Our method relies on the use of a heavy-tailed variant of the...

ID: 2509.20636v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 WISER: Segmenting watermarked region - an epidemic change-point perspective

2025-09-27

Авторы:

Soham Bonnerjee, Sayar Karmakar, Subhrajyoty Roy

## Контекст Современные технологии позволяют генерировать текст с помощью глубоких нейронных сетей, превратив это в повседневный инструмент. Однако это привело к повышению вопросов о подлинности генерируемого контента. Watermarking стало популярным методом для доказательства владения текстом или его происхождения. Однако определение, какие фрагменты текста являются watermarked, является сложным заданием, особенно когда текст перепишен или модифицирован. Нарастающий интерес к этой задаче побудил авторов разработать новый подход к watermark segmentation с использованием эпидемических change-points. ## Метод Предложенный подход, WISER (Watermark Segmentation via Epidemic Change-points), основывается на методах эпидемических change-points, которые были доминировали в статистической обработке данных. WISER рассматривает watermarking как вирусное распространение информации в тексте. Алгоритм использует функции, которые позволяют находить точки, где появляются водяные знаки, а также определять, какие части текста являются watermarked. Алгоритм имеет высокую эффективность и теоретически доказанную точность. ## Результаты Авторы проверили WISER на нескольких benchmark-датасетах, включающих различные варианты водяных знаков. Алгоритм показал высокую точность в локализации watermarked сегментов и опередил существующие методы в скорости и точности. Эксперименты подтвердили, что WISER может эффективно обрабатывать тексты с разными водяными знаками и парафразированным контентом. ## Значимость WISER может использоваться в различных сферах, где требуется установить подлинность или владение текстом, таких как защита авторских прав, борьба с нежелательным контентом или проверка нейрогенерируемого текста. Он предлагает выгоды в скорости выполнения и точности сравнения с остальными методами. Этот подход может стать важной частью технологий, применяемых в компьютерных зрении, естественном языковом обработке и дальнейшем развитии машинного обучения. ## Выводы Авторы успешно показали, что WISER является эффективным инструментом для watermark segmentation. Он основывается на теоретической легитимности и вы most-setting. В будущем, WISER может быть развит для обработки более сложных случаев watermarking, включая нейрогенерируемый текст с сильными модификациями.

Annotation:

With the increasing popularity of large language models, concerns over content authenticity have led to the development of myriad watermarking schemes. These schemes can be used to detect a machine-generated text via an appropriate key, while being imperceptible to readers with no such keys. The corresponding detection mechanisms usually take the form of statistical hypothesis testing for the existence of watermarks, spurring extensive research in this direction. However, the finer-grained probl...

ID: 2509.21160v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 Bilateral Distribution Compression: Reducing Both Data Size and Dimensionality

2025-09-26

Авторы:

Dominic Broadbent, Nick Whiteley, Robert Allison, Tom Lovett

#### Контекст Современные задачи анализа данных часто связаны с большими объемами данных, которые требуют эффективных методов для сжатия и упрощения. Одной из ключевых проблем является сохранение точности и структуры исходной информации при сжатии. Наиболее распространенные методы сжатия ориентированы на минимизацию расстояния между исходными и сжатыми данными в одной области. Однако некоторые данные характеризуются высокой мерностью и большим размером выборки, что способствует появлению ряда технических и вычислительных сложностей. Это задание направлено на разработку методики, максимально эффективно сжимающей данные как по объему, так и по размерности, сохраняя их оригинальные свойства. #### Метод Метод, предложенный в статье, называется Bilateral Distribution Compression (BDC). Это двухстадийная архитектура, которая адресует проблему сжатия как по размерности, так и по объему. В первой стадии используется Reconstruction MMD (RMMD) для выявления низкоразмерной проекции, оптимизированной с целью сохранения информации о данных. Во второй стадии эта проекция используется для оптимизации Encoded MMD (EMMD), чтобы сжатый набор данных гарантированно отражал исходное распределение. Решение основывается на Decoded MMD (DMMD), который измеряет расстояние между исходными данными и сжатыми проекциями. Это разработанный подход позволяет сократить объем и размерность данных с минимальным ущербным влиянием на их структуру и характеристики. #### Результаты Исследования проводились на различных типах данных, включая синтетические и реальные многомерные выборки. Результаты показали, что BDC достигает поразительного сжатия данных с сохранением высокой точности. Он сравнился с существующими методами сжатия, в том числе Ambient-space Compression, и показал сильное преимущество в скорости и эффективности. Эксперименты подтвердили, что BDC достигает похожих или лучших результатов с меньшим вычислительным и памятным влиянием. #### Значимость BDC может применяться в различных областях, где требуется эффективное сжатие данных, например, в машинном обучении, статистике и анализе больших данных. Преимущества BDC заключаются в своей гибкости, удобстве реализации и высокой эффективности. Он позволяет значительно сократить затраты на обработку и хранение данных без потери информационной работоспособности. Это может привести к улучшению производительности на уровне систем, повышению экономичности в предметных областях и ускорению задач обработки данных. #### Выводы Разработанный подход BDC доказал свою эффективность в сжатии данных с сохранением их свойств. Он готов к применению в различ

Annotation:

Existing distribution compression methods reduce dataset size by minimising the Maximum Mean Discrepancy (MMD) between original and compressed sets, but modern datasets are often large in both sample size and dimensionality. We propose Bilateral Distribution Compression (BDC), a two-stage framework that compresses along both axes while preserving the underlying distribution, with overall linear time and memory complexity in dataset size and dimension. Central to BDC is the Decoded MMD (DMMD), wh...

ID: 2509.17543v3 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 DoubleGen: Debiased Generative Modeling of Counterfactuals

2025-09-24

Авторы:

Alex Luedtke, Kenji Fukumizu

## Контекст Одна из основных задач в искусственном интеллекте — моделирование логики и поведения в различных ситуациях, включая сценарии, которые не произошли (counterfactuals). Эти модели широко применяются в различных областях, таких как медицина, финансы, планирование и анализ решений. Однако возникают две значительные проблемы. Первая — **confounding bias**, которая возникает из-за несовпадения между исследуемыми и неисследуемыми группами. Вторая — **misspecification bias**, происходящая из-за неправильного описания степени независимости переменных. Эти проблемы существенно снижают точность и надежность моделей. Наша мотивация заключается в разработке методы, который может устранить эти проблемы даже в условиях ограниченных данных. ## Метод Мы предлагаем **DoubleGen**, новую модель, сочетающую два подхода к устранению bias-а: **propensity model** (описывающий вероятность назначения вмешательства) и **outcome model** (описывающий результат после вмешательства). Основным инновационным моментом является то, что DoubleGen не требует точного моделирования обеих компонент — ошибки в одной модели могут компенсироваться второй. Метод основывается на модификации обучения генерирующих моделей, чтобы учесть искажения в данных. Эта архитектура позволяет достичь более стабильных и точных результатов, даже при неполной или ошибочной информации. ## Результаты С помощью DoubleGen проведены эксперименты на различных задачах моделирования counterfactuals. Мы использовали три модели: diffusion models, flow matching и autoregressive language models. Результаты показали, что DoubleGen способен уменьшить bias системно, даже если только одна из моделей (propensity или outcome) правильна. Эксперименты показали, что DoubleGen выполняет лучше, чем существующие методы в ситуациях, когда данные неполны или модели сложно корректно определить. ## Значимость Наш подход может быть применен в следующих областях: - **Финансы**: для моделирования эффектов различных стратегий инвестирования. - **Медицина**: для оценки эффекта лечения на здоровье пациентов, которое не было применено на практике. - **Планирование**: для исследования влияния различных решений на результаты. - **Анализ решений**: для моделирования результатов в ситуациях, где полные данные недоступны. Преимущества DoubleGen в том, что он предлагает более надежный и точный способ моделирования, уменьшая потенциальные ошибки, которые могут возникнуть в ситуациях, когда данные или модели неточны. ## Выводы Мы представили DoubleGen, новую модель, которая успешно решает проблемы confounding и misspecification bias в моделировании counterfactuals. Метод достигает oracle-optimality и minimax-optimality. Наши результаты показывают, что DoubleGen может быть применен в различных областях, где необходимо точное и надежное моделирование counterfactuals. Буду

Annotation:

Generative models for counterfactual outcomes face two key sources of bias. Confounding bias arises when approaches fail to account for systematic differences between those who receive the intervention and those who do not. Misspecification bias arises when methods attempt to address confounding through estimation of an auxiliary model, but specify it incorrectly. We introduce DoubleGen, a doubly robust framework that modifies generative modeling training objectives to mitigate these biases. The...

ID: 2509.16842v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 Bilateral Distribution Compression: Reducing Both Data Size and Dimensionality

2025-09-24

Авторы:

Dominic Broadbent, Nick Whiteley, Robert Allison, Tom Lovett

## Контекст Современные данные часто обладают огромным размером как в выборке, так и в размерности. Это создает значительные трудности для методов, требующих их хранения и обработки. Одной из сложностей является сохранение информативности при уменьшении размера данных. Методы, ориентированные на минимизацию размера данных, часто теряют в точности или неэффективны в вычислительных ресурсах. Наличие этих проблем мотивирует развитие новых подходов, которые бы сочетали эффективность и точность. ## Метод Мы предлагаем Bilateral Distribution Compression (BDC) — двухэтапный фреймворк, который сжимает данные как по выборке, так и по размерности. Основной идеей является Decoded MMD (DMMD), которая измеряет различия между исходными данными и данными, сжатыми в низкомерном пространстве. BDC состоит из двух этапов: (i) изучение низкомерной проекции с использованием Reconstruction MMD (RMMD) и (ii) оптимизация низкомерного сжатого набора с помощью Encoded MMD (EMMD). Эта подходка гарантирует, что сжатый набор будет точно отражать исходное распределение. ## Результаты Мы проверили эффективность BDC на различных сценариях. Метод был сравнен с существующими методами, включая Ambient-space Compression. Результаты показали, что BDC сохраняет высокую точность в представлении исходного распределения, при этом требуя значительно меньших вычислительных ресурсов. Эксперименты проводились на различных типах данных, включая высокоразмерные и высоковыборочные наборы, что демонстрирует широкую применимость BDC. ## Значимость BDC может применяться в ситуациях, где необходимо эффективно сжимать данные, сохраняя их информативность. Он имеет преимущества перед различными методами сжатия, поскольку обеспечивает лучшую точность с меньшим потреблением ресурсов. Это может быть применено в областях, таких как машинное обучение, анализ данных и хранение информации, где уменьшение размера данных критично для эффективности. ## Выводы Bilateral Distribution Compression доказал свою эффективность в сжатии данных по выборке и размерности. Мы надеемся, что дальнейшие исследования будут фокусироваться на улучшении метода для более сложных данных и его применении в реальных задачах. Это может вести к еще большим улучшениям в области хранения и обработки данных.

Annotation:

ID: 2509.17543v2 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 Fréchet Geodesic Boosting

2025-09-24

Авторы:

Yidong Zhou, Su I Iao, Hans-Georg Müller

## Контекст Градиентный бустинг стал одной из основных методологий в области машинного обучения, позволяя основным алгоритмам, таким как решающие деревья, достичь высокой точности прогнозирования. Однако, существующие алгоритмы оптимизируются для сценариев, когда выходные данные имеют скалярные или евклидовые характеристики. С ростом популярности моделей, работающих с нестандартными типами данных, такими как распределения, сети и многообразия, наблюдаются серьезные ограничения стандартных методов. Такие данные относятся к геодезическим метрическим пространствам и требуют отличных от традиционных подходов для оценки и моделирования. Мотивирует это исследование желание сделать бустинг эффективным для широкого круга приложений, включая нестандартные пространственные и многообразные данные. ## Метод Мы предлагаем Fréchet Geodesic Boosting (FGBoost) — расширение алгоритма градиентного бустинга, применимое к пространствам геодезических метрик. Основной принцип заключается в использовании геодезических геометрических структур для описания геометрической структуры выходных данных. Метод строит базовые модели, которые могут принимать решения в соответствии с геометрическими особенностями пространства. Архитектура FGBoost использует геодезические расстояния в качестве оценки отклонений и применяет геометрически смешанные модели, чтобы построить расширенную модель с учетом геометрии пространства выходных данных. Этот подход позволяет эффективно обрабатывать данные в геодезических метрических пространствах. ## Результаты Мы провели эксперименты на широком спектре данных, включая распределения, сети и многообразия. Успех FGBoost был проверен на различных симуляционных задачах, а также на реальных примерах, таких как моделирование распределений в литературной критике и моделирование структур сетевых данных в социальных сетях. Наши результаты показали, что FGBoost показывает высокую точность и может эффективно адаптироваться к высокомерновым и нестандартным пространственным данным. Эти результаты подтверждают высокую эффективность FGBoost в моделировании нестандартных пространственных данных. ## Значимость Метод FGBoost может быть применен в различных областях, включая геометрическое моделирование, лингвистику, биологию и технические приложения. Он предлагает преимущества в том числе более точный прогнозирование для сложных пространственных данных, увеличение эффективности моделей и упрощение моделирования в сложных пространственных задачах. Это может привести к значительным улучшениям в области прогнозирования, особенно в пространственных и

Annotation:

Gradient boosting has become a cornerstone of machine learning, enabling base learners such as decision trees to achieve exceptional predictive performance. While existing algorithms primarily handle scalar or Euclidean outputs, increasingly prevalent complex-structured data, such as distributions, networks, and manifold-valued outputs, present challenges for traditional methods. Such non-Euclidean data lack algebraic structures such as addition, subtraction, or scalar multiplication required by...

ID: 2509.18013v1 stat.ML, cs.LG, stat.ME

arXiv PDF

Показано 21 - 30 из 42 записей