📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Clustering Approaches for Mixed-Type Data: A Comparative Study

2025-11-27

Авторы:

Badih Ghattas, Alvaro Sanchez San-Benito

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Clustering is widely used in unsupervised learning to find homogeneous groups of observations within a dataset. However, clustering mixed-type data remains a challenge, as few existing approaches are suited for this task. This study presents the state-of-the-art of these approaches and compares them using various simulation models. The compared methods include the distance-based approaches k-prototypes, PDQ, and convex k-means, and the probabilistic methods KAy-means for MIxed LArge data (KAMILA...

ID: 2511.19755v1 stat.ML, cs.LG, stat.AP, stat.ME

arXiv PDF

📄 Toward Valid Generative Clinical Trial Data with Survival Endpoints

2025-11-22

Авторы:

Perrine Chassat, Van Tuan Nguyen, Lucas Ducrot, Emilie Lanoy, Agathe Guilloux

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Clinical trials face mounting challenges: fragmented patient populations, slow enrollment, and unsustainable costs, particularly for late phase trials in oncology and rare diseases. While external control arms built from real-world data have been explored, a promising alternative is the generation of synthetic control arms using generative AI. A central challenge is the generation of time-to-event outcomes, which constitute primary endpoints in oncology and rare disease trials, but are difficult...

ID: 2511.16551v1 cs.LG, stat.AP, stat.ME, stat.ML

arXiv PDF

📄 Data reuse enables cost-efficient randomized trials of medical AI models

2025-11-17

Авторы:

Michael Nercessian, Wenxin Zhang, Alexander Schubert, Daphne Yang, Maggie Chung, Ahmed Alaa, Adam Yala

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Randomized controlled trials (RCTs) are indispensable for establishing the clinical value of medical artificial-intelligence (AI) tools, yet their high cost and long timelines hinder timely validation as new models emerge rapidly. Here, we propose BRIDGE, a data-reuse RCT design for AI-based risk models. AI risk models support a broad range of interventions, including screening, treatment selection, and clinical alerts. BRIDGE trials recycle participant-level data from completed trials of AI mod...

ID: 2511.08986v2 cs.LG, stat.AP, stat.ME

arXiv PDF

📄 Data reuse enables cost-efficient randomized trials of medical AI models

2025-11-15

Авторы:

Michael Nercessian, Wenxin Zhang, Alexander Schubert, Daphne Yang, Maggie Chung, Ahmed Alaa, Adam Yala

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

ID: 2511.08986v1 cs.LG, stat.AP, stat.ME

arXiv PDF

📄 A Honest Cross-Validation Estimator for Prediction Performance

2025-10-11

Авторы:

Tianyu Pan, Vincent Z. Yu, Viswanath Devanarayan, Lu Tian

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Cross-validation is a standard tool for obtaining a honest assessment of the performance of a prediction model. The commonly used version repeatedly splits data, trains the prediction model on the training set, evaluates the model performance on the test set, and averages the model performance across different data splits. A well-known criticism is that such cross-validation procedure does not directly estimate the performance of the particular model recommended for future use. In this paper, we...

ID: 2510.07649v1 stat.ML, cs.LG, stat.AP, stat.ME

arXiv PDF

📄 On Using Large Language Models to Enhance Clinically-Driven Missing Data Recovery Algorithms in Electronic Health Records

2025-10-08

Авторы:

Sarah C. Lotspeich, Abbey Collins, Brian J. Wells, Ashish K. Khanna, Joseph Rigdon, Lucy D'Agostino McGowan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Objective: Electronic health records (EHR) data are prone to missingness and errors. Previously, we devised an "enriched" chart review protocol where a "roadmap" of auxiliary diagnoses (anchors) was used to recover missing values in EHR data (e.g., a diagnosis of impaired glycemic control might imply that a missing hemoglobin A1c value would be considered unhealthy). Still, chart reviews are expensive and time-intensive, which limits the number of patients whose data can be reviewed. Now, we inv...

ID: 2510.03844v1 cs.LG, stat.AP, stat.ME

arXiv PDF

📄 The causal structure of galactic astrophysics

2025-10-04

Авторы:

Harry Desmond, Joseph Ramsey

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Data-driven astrophysics currently relies on the detection and characterisation of correlations between objects' properties, which are then used to test physical theories that make predictions for them. This process fails to utilise information in the data that forms a crucial part of the theories' predictions, namely which variables are directly correlated (as opposed to accidentally correlated through others), the directions of these determinations, and the presence or absence of confounders t...

ID: 2510.01112v1 astro-ph.GA, astro-ph.CO, cs.LG, stat.AP, stat.ME

arXiv PDF

📄 On Multi-entity, Multivariate Quickest Change Point Detection

2025-09-25

Авторы:

Bahar Kor, Bipin Gaikwad, Abani Patra, Eric L. Miller

#### Контекст В последние годы выигрывает важность задачи наиболее быстрого обнаружения изменений (Change Point Detection, CPD) во временных рядах, которая находит применение в различных областях, включая мониторинг парковочных мест, системы мониторинга здоровья, мониторинг транспортных систем и анализ рынков финансов. Однако существующие подходы часто сталкиваются с ограничениями, такими как необходимость использования многоканальных видео, требование ручного маркирования данных, ограниченная скорость обработки и использование методов, не способных обнаруживать глобальные изменения в системах с неизвестным числом или систематически меняющимся поведением субъектов. Эти ограничения становятся критичными в ситуациях, где необходимо анализировать сложные многоагентные системы, такие как толпы людей. Мы предлагаем рамку для решения этой проблемы, которая адресует эти проблемы, обеспечивая эффективность в реальном времени и повышая масштабируемость. #### Метод Мы предлагаем рамку для непрерывного исследования изменений в многоагентных системах, основанную на интерпретируемых и самостоятельных методах. Наш подход включает в себя автоэнкодеры на основе ошибки реконструкции для вычисления Индивидуального Отклонения от Нормальности (Individual Deviation from Normality, IDfN). Для системного мониторинга мы собираем эти оценки в значимость на уровне системы с помощью среднего, дисперсии и гауссовых оценок (Kernel Density Estimates, KDE), предоставляя System-Wide Anomaly Score (SWAS). Далее, глобальные изменения обнаруживаются с помощью статистических мер и технологии Cumulative Sum (CUSUM). Наш подход отличается тем, что не требует метки данных или предварительной обработки, а также не требует экспертного знания. Он может работать в реальном времени с входными данными, поступающими в поток. #### Результаты Мы использовали синтетические данные и моделирование толп реализованное в Unity для проверки нашего подхода. Эксперименты показали, что наш метод выявляет системные изменения, даже если у него нет предварительного понимания количества субъектов или их поведения. Мы также сравнили наш подход с существующими решениями, показав наилучшие результаты в обнаружении системных изменений в течение нескольких десятков секунд после их наступления. Наши результаты подтверждают то, что метод является точным, быстрым и масштабируемым для мониторинга сложных многоагентных систем. #### Значимость Предлагаемый подход имеет широкие приложения в области обнаружения выбросов и мониторинга временных рядов в сложных системах, включая мониторинг транспортных систем, системы мониторинга здоровья и мониторинг толп. Наш подход обеспечива

Annotation:

We propose a framework for online Change Point Detection (CPD) from multi-entity, multivariate time series data, motivated by applications in crowd monitoring where traditional sensing methods (e.g., video surveillance) may be infeasible. Our approach addresses the challenge of detecting system-wide behavioral shifts in complex, dynamic environments where the number and behavior of individual entities may be uncertain or evolve. We introduce the concept of Individual Deviation from Normality (ID...

ID: 2509.18310v1 eess.SP, cs.LG, stat.AP, stat.ME

arXiv PDF

📄 Non-Linear Model-Based Sequential Decision-Making in Agriculture

2025-09-05

Авторы:

Sakshi Arya, Wentao Lin

## Контекст Современные проблемы в сельском хозяйстве, такие как ограниченные ресурсы, изменение климата и рост численности населения, привели к необходимости развития эффективных методов управления сельскохозяйственными ресурсами. Одним из ключевых аспектов является **последовательное принятие решений** в области управления ресурсами, например, при оптимизации добавок удобрений или воды. Традиционные подходы, такие как линейные модели или техники случайных поисков, часто не учитывают специфику агротехнических задач и неэффективны в условиях неопределенности. Необходимо разработать методы, которые учитывали бы специфические характеристики сельскохозяйственных процессов и обеспечивали бы оптимальные решения с минимальными затратами ресурсов и времени. ## Метод Мы предлагаем семейство **нелинейных модели-основыных алгоритмов для последовательных решений** в сельском хозяйстве. Наш подход включает (i) **принципиальное оценивание неопределенности** и (ii) **закрытое выражение или быстро вычисляемые максимумы выгоды**. Модели учитывают характеристики отклика сельскохозяйственных систем, позволяя эффективно комбинировать эксплорацию и эксплойт критически важными ресурсами. Метод основан на теоретических границах для уменьшения **regret** (регрета) и поддерживает высокую точность при простых вычислениях. Эта модель является интерпретируемой, что позволяет легко рассуждать о результатах и принятии решений в сельском хозяйстве. ## Результаты Мы проводили эксперименты, используя симуляционные данные, которые эмулируют реальные задачи оптимизации добавок удобрений. Наши алгоритмы показали **сублинейный регрет** и получили близкие к оптимальным результаты в условиях небольшого количества наблюдений. Результаты постоянно превосходили линейные модели (например, UCB-линейная) и даже непараметрические базовые модели, такие как $k$-NN UCB. Эти результаты подтвердят эффективность нашего подхода в условиях **неопределенности** и **ограниченных данных**, где традиционные модели часто терпят неудачу. ## Значимость Наш подход имеет широкие приложения в **природоохране**, **управлении сельскохозяйственными ресурсами** и в области **искусственного интеллекта в агротехнике**. Он позволяет сделать сельское хозяйство более **данно-направленным**, **прозрачным** и **учетным**, что соответствует **Целям Общего Развития 2 (Холодное голод) и 12 (Ответственное Потребление и Производство)**. Наш подход может улучшить процессы принятия решений, уменьшить затраты ресурсов и сделать сельское

Annotation:

Sequential decision-making is central to sustainable agricultural management and precision agriculture, where resource inputs must be optimized under uncertainty and over time. However, such decisions must often be made with limited observations, whereas classical bandit and reinforcement learning approaches typically rely on either linear or black-box reward models that may misrepresent domain knowledge or require large amounts of data. We propose a family of nonlinear, model-based bandit algor...

ID: 2509.01924v1 stat.ML, cs.LG, stat.AP, stat.ME, 62P12, 91B06

arXiv PDF

📄 Trustworthy scientific inference for inverse problems with generative models

2025-08-09

Авторы:

James Carzon, Luca Masserano, Joshua D. Ingram, Alex Shen, Antonio Carlos Herling Ribeiro Junior, Tommaso Dorigo, Michele Doro, Joshua S. Speagle, Rafael Izbicki, Ann B. Lee

## Контекст Генеративные искусственные нейронные сети, такие как генеративные модели типа GAN и VAEs, показали необычайную эффективность в генерировании сложных структур данных, таких как изображения, текст и видео, основываясь на обучении с подкреплением. За последние несколько лет, эти модели были применены в различных научных областях для выполнения инверсионных задач, которые заключаются в интерпретации входных данных для вывода потенциально необратимых параметров, таких как взаимодействия частиц в физике или распределения тел в космологии. Однако существуют значительные ограничения в их использовании. Традиционные методы могут приводить к вариациям в результатах или создают недостаточно обоснованные выводы, особенно при отсутствии доступа к полной вероятностной модели. В этой работе мы предлагаем метод, который расширяет генеративные модели за пределы обычных областей использования и позволяет выполнять надежные выводы в условиях, когда полнота информации о некоторых параметрах недоступна. ## Метод Мы предлагаем **FreB** (Frequentist-Bayes), который является системой для гарантии надежности в выводе в области инверсионных задач. Метод комбинирует теории Фрегеля и Байеса, чтобы преобразовать генеративные модели в методы, которые позволяют формировать более точные интервалы для параметров. FreB работает следующим образом: он принимает входные данные и генеративную модель, а затем формирует множество возможных интерпретаций параметров, которые лучше всего соответствуют наблюдаемым данным. Это множество формируется с использованием оператора наименьшего квадрата и теоремы Байеса. На выходе получается интервал, который содержит реальные параметры в процентном соотношении, соответствующем заданной доверительной границе. Мы также предоставляем диагностические инструменты, которые позволяют отслеживать качество решения и понять, насколько модель доверенна. ## Результаты Мы провели эксперименты в нескольких научных областях, включая физику, астрономию и геологию. Наши эксперименты включали: 1. **Определение неизвестных источников данных**: мы использовали FreB для идентификации источников данных в случаях, когда данные поступали из нескольких источников, но не было наличия значительных описательных данных. 2. **Реконструкция теоретических моделей**: мы использовали FreB для разрешения конфликтов между различными теоретическими моделями, которые объясняли одни и те же наблюдения. 3. **Сокращение систематических ошибок в обсервациях**: мы применили FreB для коррекции систематических ошибок в данных, например, в случае неточного измерения времени в физи

Annotation:

Generative artificial intelligence (AI) excels at producing complex data structures (text, images, videos) by learning patterns from training examples. Across scientific disciplines, researchers are now applying generative models to ``inverse problems'' to infer hidden parameters from observed data. While these methods can handle intractable models and large-scale studies, they can also produce biased or overconfident conclusions. We present a solution with Frequentist-Bayes (FreB), a mathematic...

ID: 2508.02602v1 stat.ML, astro-ph.IM, cs.LG, stat.AP, stat.ME

arXiv PDF