📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Collapsing ROC approach for risk prediction research on both common and rare variants

2025-08-21

Авторы:

Changshuai Wei, Qing Lu

#### Контекст Risk prediction, основанный на генетических данных, представляет большой потенциал для улучшения общественного здравоохранения и клинического обслуживания. Однако, существующие технологии, основывающиеся на исследованиях генов, показали недостаточную точность для клинического применения. Большинство генов, включая редкие, до сих пор не были включены в геномные исследования, что затрудняет получение информации о них. Таким образом, необходимо развитие методик, включающих как обычные, так и редкие варианты. Разработан новый подход Collapsing ROC (CROC), который расширяет предыдущий Forward ROC (FROC), и может быть применен для оценки риска на основе обеих категорий вариантов. #### Метод Методом CROC были проанализированы 533 сингленюклеотидных полиморфизмов (SNP) из 37 генов, взятых из мини-экзома данных Genetic Analysis Workshop 17. Для сравнения результатов был проведен аналогичный анализ с использованием FROC. Оба метода были протестированы на разных уровнях точности и поддерживали различные количества вариантов. CROC включает дополнительные шаги для обработки редких вариантов, что позволяет повысить точность оценки риска. #### Результаты Используя CROC, была получена AUC (Area Under Curve) равная 0.605 при использовании всех вариантов. Это значение выше, чем при использовании только обычных вариантов (AUC = 0.585). При постепенном уменьшении числа обычных вариантов CROC показал лучшую точность по сравнению с FROC. В крайнем случае, когда в анализ включались только редкие варианты, CROC показал AUC = 0.603, в то время как FROC дал AUC = 0.524. Это показывает, что CROC более эффективен при работе со смешанными данными. #### Значимость Разработанный подход CROC может быть применен в различных областях медицины, где необходимо оценивать риск заболеваний на основе генетических факторов. Он демонстрирует преимущества по сравнению с FROC, особенно при оценке риска на основе редких вариантов. Это может привести к более точным прогнозам и улучшению клинических решений. #### Выводы Результаты показывают, что CROC может значительно улучшить точность оценки риска, включая обработку редких вариантов. Будущие исследования должны фокусироваться на расширении применения CROC на большие комплексы данных и развитии его в широкой клинической практике.

Annotation:

Risk prediction that capitalizes on emerging genetic findings holds great promise for improving public health and clinical care. However, recent risk prediction research has shown that predictive tests formed on existing common genetic loci, including those from genome-wide association studies, have lacked sufficient accuracy for clinical use. Because most rare variants on the genome have not yet been studied for their role in risk prediction, future disease prediction discoveries should shift t...

ID: 2508.13552v1 cs.LG, cs.AI, stat.ME

arXiv PDF

📄 Bounding Causal Effects and Counterfactuals

2025-08-21

Авторы:

Tobias Maringgele

#### Контекст Область исследования казуального вывода (causal inference) широко распространена в многих научных и практических областях, таких как экономика, медицина и социальные науки. Однако, попытки оценить казуальные эффекты часто сталкиваются с значительными ограничениями. Существуют сильные априорные гипотезы, такие как "нет неизвестных конфундирующих факторов" или "соблюдается полная сдержанность", которые часто не выполняются на практике. Ошибки в принятии этих гипотез могут привести к неточным выводам. Это приводит к ограниченному доверию к результатам. Метод получения разрешений (partial identification) предлагает альтернативу. Он не полагается на сильные, но часто непроверяемые, гипотезы. Вместо этого он формирует диапазоны, отображающие неопределенность данных. Несмотря на его теоретическую ценность, метод часто остается неиспользуемым в практических задачах, возникают проблемы с логической структурой и отсутствием руководства для применения. #### Метод Данная работа рассматривает различные методы расчета диапазонов в рамках казуального вывода. Она сочетает символьные, оптимизационно-ориентированные и информационно-теоретические подходы в единую систему. Был разработан расширенный подход с использованием энтропии для задач, таких как вероятность необходимости и достаточности (PNS). Исследование проводилось на основе тысяч симуляций, включая как дискретные, так и непрерывные задачи. Методы были оценены по критериям точности диапазонов, эффективности вычислений и устойчивости к нарушению гипотез. #### Результаты Результаты показали, что разные методы дают разные результаты в зависимости от характера данных и задачи. Был выявлены методы, дают точные результаты в определенных условиях, но могут быть менее эффективны в других. Для повышения удобства использования, в рамках работы был разработан собственный инструмент CausalBoundingEngine, который объединяет многие методы в единое целое. Была также разработана модель машинного обучения для предсказания наиболее продуктивного метода в зависимости от характера данных. #### Значимость Полученные результаты могут быть использованы в многих научных и практических областях, где необходимо рассчитать казуальные эффекты с учетом неопределенности данных. Например, в медицине для оценки влияния лекарств, в экономике для оценки влияния политик и практически во всех ситуациях, где наличие неизвестных факторов может повлиять на выводы. В отличие от сильных гипотез, метод расчета диапазонов обеспечивает гибкость и точность в условиях неопределенности. #### Выводы Рабо

Annotation:

Causal inference often hinges on strong assumptions - such as no unmeasured confounding or perfect compliance - that are rarely satisfied in practice. Partial identification offers a principled alternative: instead of relying on unverifiable assumptions to estimate causal effects precisely, it derives bounds that reflect the uncertainty inherent in the data. Despite its theoretical appeal, partial identification remains underutilized in applied work, in part due to the fragmented nature of exist...

ID: 2508.13607v1 cs.LG, cs.AI, stat.ME, 62A01 (Foundations of statistics), 68T01 (Artificial intelligence, general), G.3; I.2.6

arXiv PDF

📄 Interpreting Time Series Forecasts with LIME and SHAP: A Case Study on the Air Passengers Dataset

2025-08-19

Авторы:

Manish Shukla

## Контекст Временные ряды являются основополагающим аспектом принятия решений в таких областях, как авиация, энергетика, розничная торговля и здравоохранение. Одним из ключевых вопросов в этой области является необходимость обеспечения прозрачности и интерпретируемости прогнозов. Автоматические модели временных рядов, такие как ARIMA, обладают хорошей интерпретируемостью благодаря их коэффициентам, однако структурные условия, на которых они основываются, не всегда могут ловко адаптироваться к нелинейным зависимостям. Машинное обучение, особенно в виде моделей, таких как XGBoost, предлагает высокую точность прогноза, но часто является "чёрным ящиком", в который входит процесс принятия решения. Из-за этого есть необходимость разработки методов, позволяющих объяснить прогнозы временных рядов, используя как модели анализа, так и методы интерпретации. ## Метод Для выполнения этой задачи была применена методология, объединяющая два основных подхода к объяснению прогнозов временных рядов: LIME (Local Interpretable Model-Agnostic Explanations) и SHAP (SHapley Additive exPlanations). В рамках этой работы, вспомогательные признаки, такие как значения в прошлом, а также сезонные кодировки, были внедрены в упрощенную версию проблемы, чтобы преобразовать её в супервизированную задачу. Использовалась модель градиентного бустинга с тем, чтобы предсказать значения временного ряда, а также настроена была модель ARIMA в качестве базового сравнения. Для каждой прогнозируемой точки были применены методы LIME и SHAP, чтобы понять, какие факторы влияют на прогноз, и для каких мест полученных прогнозов. ## Результаты Были проведены эксперименты с использованием данных Air Passengers, где было показано, что основной контрибьютор к прогнозам является признак, относящийся к прошлому году, а также сезонные кодировки. Для каждого прогноза можно было выявить, какие именно признаки были влиятельными, и понять, как они влияли на результат. Это было сделано с помощью SHAP, который распределил значимость каждого фактора в целом, и LIME, который предоставил детальную локальную интерпретацию. ## Значимость Результаты этого исследования имеют значительное значение для ряда приложений, включая авиацию, энергетику и розничную торговлю. Методы, предложенные в этой работе, позволяют улучшить прозрачность и доверие к моделям временных рядов. Это может привести к повышению уверенности в принятии решений и к улучшению понимания того, как прогнозы формируются. Также, применение LIME и SHAP может привести к открытию новых путей для использования интерпретации в работе с данными. ## Выводы Выводы, к которым пришли из этого

Annotation:

Time-series forecasting underpins critical decisions across aviation, energy, retail and health. Classical autoregressive integrated moving average (ARIMA) models offer interpretability via coefficients but struggle with nonlinearities, whereas tree-based machine-learning models such as XGBoost deliver high accuracy but are often opaque. This paper presents a unified framework for interpreting time-series forecasts using local interpretable model-agnostic explanations (LIME) and SHapley additive...

ID: 2508.12253v1 cs.LG, cs.AI, stat.ME

arXiv PDF

📄 Position: Causal Machine Learning Requires Rigorous Synthetic Experiments for Broader Adoption

2025-08-14

Авторы:

Audrey Poinsot, Panayiotis Panayiotou, Alessandro Leite, Nicolas Chesneau, Özgür Şimşek, Marc Schoenauer

## Контекст Область исследования, известная как каузальное машинное обучение, предлагает объединить мощь машинного обучения с теорией каузального вывода для улучшения принятия решений. Однако, несмотря на свою значимость, эти методы остаются недостаточно использованы в широкой машинном обучении. Одной из основных причин является недостаточность того, как эффективность и надежность таких методов оцениваются в эмпирических исследованиях. Одним из критических аспектов является подход к синтетическим экспериментам, который, по мнению критиков, не позволяет тщательно оценить потенциал каузальных методов. Мы, наоборот, утверждаем, что синтетические эксперименты необходимы для точной оценки потенциала и надежности каузальных методов. Наши аргументы основываются на анализе существующих методов оценки и предложении принципов для проведения тщательных эмпирических исследований, используя синтетические данные. Эти принципы могут повысить доверие к каузальным методам и способствовать их более широкому применению. ## Метод Методология, предложенная в статье, основывается на критическом анализе существующих методов оценки каузальных методов и предложении новых принципов для проведения синтетических экспериментов. Мы обосновываем, что синтетические эксперименты должны быть явно структурированы и должны отражать реальные сценарии применения, для того чтобы имитировать реальные задачи, с которыми сталкиваются при разработке каузальных моделей. Методы, описанные в статье, включают в себя предложение критериев для выбора синтетических данных, предложение способов моделирования каузальных отношений в этих данных и предложение мер для оценки надежности и точности моделей. Эти принципы стремятся к тому, чтобы обеспечить достоверные и всесторонние результаты в синтетических исследованиях, чтобы повысить уровень доверия к каузальным методам. ## Результаты Результаты представлены в виде критического анализа существующих методов оценки каузальных моделей. Авторы предоставляют подробный обзор текущих методов, указывая на их недостатки, такие как несогласованность в выборе данных, недостаток ясности в моделировании каузальных отношений и нехватка мер для оценки надежности. Далее, авторы предлагают свои собственные принципы для проведения синтетических экспериментов. Эти принципы включают в себя подробные рекомендации по выбору данных, моделированию каузальных отношений и оценке результатов. Исследования подтверждают, что применение предложенных принципов может улучшить качество синтетических экспериментов и, следовательно, увеличить уровень доверия к каузальным методам. ## Значимость

Annotation:

Causal machine learning has the potential to revolutionize decision-making by combining the predictive power of machine learning algorithms with the theory of causal inference. However, these methods remain underutilized by the broader machine learning community, in part because current empirical evaluations do not permit assessment of their reliability and robustness, undermining their practical utility. Specifically, one of the principal criticisms made by the community is the extensive use of...

ID: 2508.08883v1 cs.LG, cs.AI, stat.ME, stat.ML

arXiv PDF

Показано 11 - 14 из 14 записей