📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Jordyn E. A. Lorentz, Katharine M. Clark
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This paper introduces mixsemble, an ensemble method that adapts the
Dawid-Skene model to aggregate predictions from multiple model-based clustering
algorithms. Unlike traditional crowdsourcing, which relies on human labels, the
framework models the outputs of clustering algorithms as noisy annotations.
Experiments on both simulated and real-world datasets show that, although the
mixsemble is not always the single top performer, it consistently approaches
the best result and avoids poor outcomes....
📄 Conservative Decisions with Risk Scores
2025-10-02Авторы:
Yishu Wei, Wen-Yee Lee, George Ekow Quaye, Xiaogang Su
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In binary classification applications, conservative decision-making that
allows for abstention can be advantageous. To this end, we introduce a novel
approach that determines the optimal cutoff interval for risk scores, which can
be directly available or derived from fitted models. Within this interval, the
algorithm refrains from making decisions, while outside the interval,
classification accuracy is maximized. Our approach is inspired by support
vector machines (SVM), but differs in that it m...
Авторы:
Ruolin Meng, Ming-Yu Chung, Dhanajit Brahma, Ricardo Henao, Lawrence Carin
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We consider inferring the causal effect of a treatment (intervention) on an
outcome of interest in situations where there is potentially an unobserved
confounder influencing both the treatment and the outcome. This is achievable
by assuming access to two separate sets of control (proxy) measurements
associated with treatment and outcomes, which are used to estimate treatment
effects through a function termed the em causal bridge (CB). We present a new
theoretical perspective, associated assumpti...
Авторы:
Gongxu Luo, Loka Li, Guangyi Chen, Haoyue Dai, Kun Zhang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Interventional causal discovery seeks to identify causal relations by
leveraging distributional changes introduced by interventions, even in the
presence of latent confounders. Beyond the spurious dependencies induced by
latent confounders, we highlight a common yet often overlooked challenge in the
problem due to post-treatment selection, in which samples are selectively
included in datasets after interventions. This fundamental challenge widely
exists in biological studies; for example, in gen...
Авторы:
Nan Lu, Jian Shi, Xin-Yu Tian
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Preference-based data often appear complex and noisy but may conceal
underlying homogeneous structures. This paper introduces a novel framework of
ranking structure recognition for preference-based data. We first develop an
approach to identify dynamic ranking groups by incorporating temporal penalties
into a spectral estimation for the celebrated Bradley-Terry model. To detect
structural changes, we introduce an innovative objective function and present a
practicable algorithm based on dynamic ...
Авторы:
Yidong Zhou, Su I Iao, Hans-Georg Müller
## Контекст
Одним из основных задач регрессии является предсказание пространственно-векторных выходных данных, которые носят структурированный характер, например, вектора, матрицы или даже сети. Однако, существуют ситуации, когда выходные данные естественным образом моделируются как элементы геометрических пространств, не являющихся векторными (например, группы симметричноопределенных матриц плюс или функциональные пространства). Традиционные методы регрессии, опирающиеся на векторное пространство, не могут быть применены в таких случаях. Это создает необходимость в разработке методов, способных эффективно работать в метрических пространствах. Таким образом, задача предсказания выходных данных в метрических пространствах является важной и актуальной в многих областях, включая машинное обучение, анализ данных, геометрию и др.
## Метод
Мы предлагаем **End-to-End Metric Regression (E2M)**, новую архитектуру глубокого обучения, предназначенную для решения задач регрессии в метрических пространствах. Основная идея E2M заключается в использовании **взвешенных фрактельных средних** (Fréchet means) для предсказания выходных данных. Эти взвешенные средние формируются с помощью нейронной сети, которая вычисляет веса на основе входных данных. Эти веса определяют вклад каждого элемента множества выходных данных в финальное предсказание. Таким образом, E2M позволяет гибко адаптироваться к геометрии пространства выходных данных, не прибегая к ограничивающим параметрическим моделям. Метод E2M также включает в себя регуляризацию энтропии, чтобы обеспечить устойчивость и повысить точность предсказания в условиях неопределенности.
## Результаты
Мы провели обширные эксперименты с различными типами метрических пространств, включая пространство вероятностных распределений, пространство сетей и пространство симметрично определенных матриц. Мы сравнивали E2M с другими методами регрессии, включая традиционные и те, которые используют параметрические модели. Наши результаты показывают, что E2M показывает высокую точность и стабильность в предсказании выходных данных. Мы также проводили эксперименты на реальных данных, включая данные о человеческих распределениях смертности и сетях транспорта Нью-Йорка. В этих случаях E2M демонстрировал значительные преимущества по сравнению с другими методами.
## Значимость
Предложенная модель E2M имеет широкие приложения в области предсказания структурированных данных, включая прогнозирование распределений, анализ сетей, моделирование геометрических объектов и др. Одним из основных
Annotation:
Many modern applications involve predicting structured, non-Euclidean outputs
such as probability distributions, networks, and symmetric positive-definite
matrices. These outputs are naturally modeled as elements of general metric
spaces, where classical regression techniques that rely on vector space
structure no longer apply. We introduce E2M (End-to-End Metric regression), a
deep learning framework for predicting metric space-valued outputs. E2M
performs prediction via a weighted Fr\'echet me...
Авторы:
Chao Ying, Jun Jin, Haotian Zhang, Qinglong Tian, Yanyuan Ma, Yixuan Li, Jiwei Zhao
## Контекст
Унитарное адаптирование доменов (UDA) — задача, которая возникает при передаче знаний между доменами, когда метки целевого домена отсутствуют. Одной из самых сложных проблем в этой области является отсутствие части исходного домена, которая не может быть наблюдаема в целевом домене. Это отсутствие может привести к неточным оценкам и ухудшенной прогностической способности. Например, в сферах, таких как медицина или финансы, некоторые подгруппы исходных данных могут быть недоступны в целевой выборке из-за экономических, социальных или технических ограничений. Необходимо разработать методы, которые могут учитывать такое отсутствие и по-прежнему оказывать полезные прогнозы.
## Метод
Мы предлагаем метод, который строит модели для целевого домена, учитывая отсутствие части исходного домена. Метод основывается на теории многообразий, которая позволяет описать спектр возможных значений в данных. Для разделения выборки на подгруппы мы используем бинарные метки $Y$ (зависимость) и $A$ (окружение). Метод разбирает выборку на области, в которых отсутствует подгруппа, и оценивает ее влияние через распределения. Для этого мы используем техники распределения, которые позволяют прогнозировать итоговую модель на основе недостающих данных. Также мы используем теорию метода наименьших квадратов, чтобы установить зависимости между подгруппами и получить обобщающую модель.
## Результаты
Мы проводили эксперименты на синтетических и реальных данных. На синтетических данных показали, что наш метод превосходит традиционные методы, которые не учитывают отсутствующую подгруппу. На реальных данных, таких как данные по распределению ликвидности в финансовой сфере, метод демонстрирует значительное улучшение прогнозных моделей по сравнению с методами, не учитывающими отсутствующую подгруппу. Также мы проверили точность нашего метода на данных, где отсутствуют данные о некоторых подгруппах.
## Значимость
Наш метод может применяться в сферах, где отсутствуют части исходных данных из-за технических или экономических ограничений. Например, он может быть использован для прогноза финансовых рисков, где некоторые подгруппы системы могут быть недоступны в целевой выборке. Метод предлагает существенные преимущества по сравнению с традиционными подходами, так как он учитывает отсутствующие подгруппы и обеспечивает более точные экстраполяционные модели. Это может привести к более точным прогнозам и эффективному применению методов UDA в реальных условиях.
## Выводы
Мы успешно разработали метод
Annotation:
We study an unsupervised domain adaptation problem where the source domain
consists of subpopulations defined by the binary label $Y$ and a binary
background (or environment) $A$. We focus on a challenging setting in which one
such subpopulation in the source domain is unobservable. Naively ignoring this
unobserved group can result in biased estimates and degraded predictive
performance. Despite this structured missingness, we show that the prediction
in the target domain can still be recovered....
Авторы:
Joaquim Valerio Teixeira, Ed Reznik, Sudpito Banerjee, Wesley Tansey
## Контекст
Анализ спациальных данных, полученных с помощью биологических импульсных технологий, таких как импульсная масс-спектрометрия (IMS) и импульсная масс-цитометрия (IMC), представляет собой сложную задачу из-за спонтанного объединения сигналов от разных молекул в каждом пикселе изображения. Это приводит к существенным ограничениям в точности интерпретации данных и выявлении активных регионов. Для устранения этих проблем, разработана программная модель, основанная на графическом лассо, которая позволяет оценивать относительные скорости взаимодействия между молекулами в пространстве, восстанавливая достоверные характеристики всего изображения. Эта модель включает в себя новую графическую модель спарсинга, которая позволяет адаптироваться к сложностям, связанным с неопределенностью в исходных данных.
## Метод
Метод представляет собой новую графическую модель спарсинга, основанную на графическом лассо с высокой тяжестью. Модель включает в себя нелинейные связи между пикселями, чтобы представить спатиальные сигналы. Для восстановления относительных скоростей использована новая модель вариационного семейства, позволяющая эффективно оценивать параметры данных. Эта модель адаптирована для автоматического процесса обучения через автоматическое разностное интерполирование, что позволяет сделать процесс вычислений более эффективным и точным. Модель также использует специальную графическую модель для учета нерегулярных сигналов, которая позволяет стабилизировать результаты и уменьшить шум.
## Результаты
В ходе экспериментов был проведен сравнительный анализ метода с другими существующими методами. Было проанализировано набор симуляционных данных, а также данные в реальных условиях, полученные с использованием IMS. Результаты показали, что данный подход дает более точные оценки относительных скоростей в сравнении с методами, основанными на точных оценках. Также было получено улучшение в построении анатомической структуры изображений, а также удаление ненужных артефактов. Этот подход также удалось выявить активные регионы, которые были пропущены стандартными аналитическими методами.
## Значимость
Метод может быть применен в различных областях, включая биологическое импульсное зрение, геологический анализ, а также в других сферах, где требуется точное восстановление пространственных сигналов. Особым преимуществом является улучшение точности оценки относительных скоростей и увеличение достоверности результатов. Этот подход также может быть эффективным для определения активных регионов, которые были
Annotation:
The analysis of spatial data from biological imaging technology, such as
imaging mass spectrometry (IMS) or imaging mass cytometry (IMC), is challenging
because of a competitive sampling process which convolves signals from
molecules in a single pixel. To address this, we develop a scalable Bayesian
framework that leverages natural sparsity in spatial signal patterns to recover
relative rates for each molecule across the entire image. Our method relies on
the use of a heavy-tailed variant of the...
Авторы:
Soham Bonnerjee, Sayar Karmakar, Subhrajyoty Roy
## Контекст
Современные технологии позволяют генерировать текст с помощью глубоких нейронных сетей, превратив это в повседневный инструмент. Однако это привело к повышению вопросов о подлинности генерируемого контента. Watermarking стало популярным методом для доказательства владения текстом или его происхождения. Однако определение, какие фрагменты текста являются watermarked, является сложным заданием, особенно когда текст перепишен или модифицирован. Нарастающий интерес к этой задаче побудил авторов разработать новый подход к watermark segmentation с использованием эпидемических change-points.
## Метод
Предложенный подход, WISER (Watermark Segmentation via Epidemic Change-points), основывается на методах эпидемических change-points, которые были доминировали в статистической обработке данных. WISER рассматривает watermarking как вирусное распространение информации в тексте. Алгоритм использует функции, которые позволяют находить точки, где появляются водяные знаки, а также определять, какие части текста являются watermarked. Алгоритм имеет высокую эффективность и теоретически доказанную точность.
## Результаты
Авторы проверили WISER на нескольких benchmark-датасетах, включающих различные варианты водяных знаков. Алгоритм показал высокую точность в локализации watermarked сегментов и опередил существующие методы в скорости и точности. Эксперименты подтвердили, что WISER может эффективно обрабатывать тексты с разными водяными знаками и парафразированным контентом.
## Значимость
WISER может использоваться в различных сферах, где требуется установить подлинность или владение текстом, таких как защита авторских прав, борьба с нежелательным контентом или проверка нейрогенерируемого текста. Он предлагает выгоды в скорости выполнения и точности сравнения с остальными методами. Этот подход может стать важной частью технологий, применяемых в компьютерных зрении, естественном языковом обработке и дальнейшем развитии машинного обучения.
## Выводы
Авторы успешно показали, что WISER является эффективным инструментом для watermark segmentation. Он основывается на теоретической легитимности и вы most-setting. В будущем, WISER может быть развит для обработки более сложных случаев watermarking, включая нейрогенерируемый текст с сильными модификациями.
Annotation:
With the increasing popularity of large language models, concerns over
content authenticity have led to the development of myriad watermarking
schemes. These schemes can be used to detect a machine-generated text via an
appropriate key, while being imperceptible to readers with no such keys. The
corresponding detection mechanisms usually take the form of statistical
hypothesis testing for the existence of watermarks, spurring extensive research
in this direction. However, the finer-grained probl...
Авторы:
Dominic Broadbent, Nick Whiteley, Robert Allison, Tom Lovett
#### Контекст
Современные задачи анализа данных часто связаны с большими объемами данных, которые требуют эффективных методов для сжатия и упрощения. Одной из ключевых проблем является сохранение точности и структуры исходной информации при сжатии. Наиболее распространенные методы сжатия ориентированы на минимизацию расстояния между исходными и сжатыми данными в одной области. Однако некоторые данные характеризуются высокой мерностью и большим размером выборки, что способствует появлению ряда технических и вычислительных сложностей. Это задание направлено на разработку методики, максимально эффективно сжимающей данные как по объему, так и по размерности, сохраняя их оригинальные свойства.
#### Метод
Метод, предложенный в статье, называется Bilateral Distribution Compression (BDC). Это двухстадийная архитектура, которая адресует проблему сжатия как по размерности, так и по объему. В первой стадии используется Reconstruction MMD (RMMD) для выявления низкоразмерной проекции, оптимизированной с целью сохранения информации о данных. Во второй стадии эта проекция используется для оптимизации Encoded MMD (EMMD), чтобы сжатый набор данных гарантированно отражал исходное распределение. Решение основывается на Decoded MMD (DMMD), который измеряет расстояние между исходными данными и сжатыми проекциями. Это разработанный подход позволяет сократить объем и размерность данных с минимальным ущербным влиянием на их структуру и характеристики.
#### Результаты
Исследования проводились на различных типах данных, включая синтетические и реальные многомерные выборки. Результаты показали, что BDC достигает поразительного сжатия данных с сохранением высокой точности. Он сравнился с существующими методами сжатия, в том числе Ambient-space Compression, и показал сильное преимущество в скорости и эффективности. Эксперименты подтвердили, что BDC достигает похожих или лучших результатов с меньшим вычислительным и памятным влиянием.
#### Значимость
BDC может применяться в различных областях, где требуется эффективное сжатие данных, например, в машинном обучении, статистике и анализе больших данных. Преимущества BDC заключаются в своей гибкости, удобстве реализации и высокой эффективности. Он позволяет значительно сократить затраты на обработку и хранение данных без потери информационной работоспособности. Это может привести к улучшению производительности на уровне систем, повышению экономичности в предметных областях и ускорению задач обработки данных.
#### Выводы
Разработанный подход BDC доказал свою эффективность в сжатии данных с сохранением их свойств. Он готов к применению в различ
Annotation:
Existing distribution compression methods reduce dataset size by minimising
the Maximum Mean Discrepancy (MMD) between original and compressed sets, but
modern datasets are often large in both sample size and dimensionality. We
propose Bilateral Distribution Compression (BDC), a two-stage framework that
compresses along both axes while preserving the underlying distribution, with
overall linear time and memory complexity in dataset size and dimension.
Central to BDC is the Decoded MMD (DMMD), wh...
Показано 51 -
60
из 87 записей