📚 Саммари научных статей из arXiv

Найдено 87 результатов по запросу 'cs.LG, stat.ME' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Sequentially Auditing Differential Privacy

2025-09-11

Авторы:

Tomás González, Mateo Dulce-Rubio, Aaditya Ramdas, Mónica Ribero

## Контекст **Область исследования:** Дифференциальная приватность (Differential Privacy, DP) является ключевым подходом для защиты частной информации в анализе данных. Она обеспечивает меру защиты, позволяя выполнять анализ данных без раскрытия индивидуальных данных. Однако на практике могут возникать ситуации, когда алгоритмы DP не соблюдают заявленные гарантии безопасности, что может привести к утечке чувствительной информации. **Проблемы и мотивация:** Несмотря на значительные достижения в дифференциальной приватности, существуют трудности в проверке соблюдения гарантий DP. Традиционные методы, такие как батч-аудит, требуют большого количества выборок, что ограничивает их эффективность в реальном времени. Мотивация заключается в разработке подхода, позволяющего эффективно и в реальном времени проверять соблюдение DP в процессе его применения. ## Метод **Описание методологии:** Разработан последовательный тест (sequentially auditing), позволяющий проверять гарантии DP в реальном времени. Этот подход основывается на потоковом анализе процесса генерирования данных и обеспечивает **anytime-valid inference**, что означает, что выводы могут быть действительными в любой момент времени. Метод эффективно контролирует **Type I error** (ложноположительные выводы), что является важной особенностью для надежности. **Технические решения и архитектура:** Алгоритм использует потоковые данные, что позволяет проводить проверки в любой момент. Это решает проблему фиксированного размера выборки, которая характерна для традиционных методов. Технический подход включает в себя моделирование потока выводов механизма DP и применение статистических методов для выявления несоответствий. ## Результаты **Эксперименты и данные:** Исследования проводились на различных реалистичных механизмах DP, включая DP-SGD (Differentially Private Stochastic Gradient Descent). Набор данных включал ситуации, в которых DP-гарантии не соблюдались. Результаты показали, что последовательный тест обнаруживает нарушения DP с минимальным числом выборок, что значительно превосходит эффективность традиционных методов. **Результаты сравнения:** Например, при выявлении нарушений DP-SGD метод потребовал всего одной итерации обучения вместо необходимости выполнить весь процесс обучения, как требуются традиционные методы. Это позволяет экономить ресурсы и уменьшать время проверки. ## Значимость **Области применения:** Этот подход может быть применен в ситуациях, когда необходимо реальное время мониторинга соблюдения DP в течение вычислительных процессов. Например, в системах машинного обучения, где гарантии приватности должны быть видимы в реальном

Annotation:

We propose a practical sequential test for auditing differential privacy guarantees of black-box mechanisms. The test processes streams of mechanisms' outputs providing anytime-valid inference while controlling Type I error, overcoming the fixed sample size limitation of previous batch auditing methods. Experiments show this test detects violations with sample sizes that are orders of magnitude smaller than existing methods, reducing this number from 50K to a few hundred examples, across diverse...

ID: 2509.07055v1 cs.CR, cs.LG, stat.ME

arXiv PDF

📄 MOSAIC: Minimax-Optimal Sparsity-Adaptive Inference for Change Points in Dynamic Networks

2025-09-10

Авторы:

Yingying Fan, Jingyuan Liu, Jinchi Lv, Ao Sun

#### Контекст Изменения в структуре динамических сетей часто отражают критические трансформации в крупных данных. Однако определение этих изменений, называемых "change points," представляет задачу не только статистики, но и вычислительной лихорадки. Задача возникает из-за необходимости определить типичные шаблоны, которые могут быть скрыты в сложных структурах. Это становится особенно сложной, когда сети не только меняются, но и имеют сложные структуры, такие как малоранговые и спарсовые изменения. Модель MOSAIC (Minimax-Optimal Sparsity-Adaptive Inference for Change Points in Dynamic Networks) была разработана для эффективного обнаружения таких изменений, учитывая эти сложности. #### Метод Модель MOSAIC включает в себя несколько ключевых технических решений. Она использует методы эффективного линейного приближения для изменений, включая теорию матричной разложимости и методы экстремального сжатия. В процессе моделирования, MOSAIC анализирует динамические сети с использованием метода "screened signals," который позволяет определять спарсовые изменения с минимальным усреднением. Это достигается в том числе с помощью теории мартингалов, которая позволяет гарантировать стандартную нормальную распределенность статистики. Также, MOSAIC включает в себя методы, позволяющие адаптироваться к конкретным типам изменений в сетях, независимо от их масштаба. #### Результаты Модель MOSAIC была проверена на симуляционных примерах и реальных данных. На основе этих экспериментов, было установлено, что она подходит к минимаксной границе детекции в динамических сетях, находясь в пределах логарифмического потери. Модель достигает полной силы при тестировании при наличии изменений, а также оптимальна при отсутствии изменений. Эта модель показала значительное преимущество по сравнению с другими существующими алгоритмами в плане точности и скорости работы. #### Значимость Модель MOSAIC может применяться в различных областях, где динамические сети имеют важную роль, таких как мониторинг финансовых маркетов, транспортных систем и биологических сетей. Она предоставляет преимущество в том, что способна обнаруживать изменения в сетях независимо от их сложности и масштаба. Это дает возможность для более точного и эффективного анализа данных, которая может иметь решающее значение в принятии решений в реальном времени. #### Выводы Модель MOSAIC достигла новых подходов к обнаружению изменений в динамических сетях, включая те, что имеют спарсовые и малоранговые структуры. Она была подтверждена эффективностью в ряде экспериментов и имеет потенциал для расширения полезности в приложениях, где дина

Annotation:

We propose a new inference framework, named MOSAIC, for change-point detection in dynamic networks with the simultaneous low-rank and sparse-change structure. We establish the minimax rate of detection boundary, which relies on the sparsity of changes. We then develop an eigen-decomposition-based test with screened signals that approaches the minimax rate in theory, with only a minor logarithmic loss. For practical implementation of MOSAIC, we adjust the theoretical test by a novel residual-base...

ID: 2509.06303v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 Robust and Adaptive Spectral Method for Representation Multi-Task Learning with Contamination

2025-09-10

Авторы:

Yian Huang, Yang Feng, Zhiliang Ying

## Контекст Работа посвящена развитию методов многозадачного обучения (MTL), которые стремятся эффективно обучать несколько задач одновременно, совместно используя структуру, общую для всех задач. Однако, практическое применение таких методов часто ограничивается существующими проблемами, такими как наличие контamination (выбросов или адверсарных задач), неоднородность задач и недостаток предварительной информации о зависимости между задачами. Существующие подходы, в том числе и теоретические, часто основываются на предположении о чистых данных или незначительном количестве контamination. Фактический выбор в реальных ситуациях часто становится нарушенным, что приводит к подрыву эффективности таких методов. Целью данной работы является разработка метода, который может эффективно быть применен в ситуациях с подложенными задачами, незначительным количеством контamination и неоднородностью внутри задач. ## Метод Разработанный метод, Robust and Adaptive Spectral (RAS), является адаптивным и устойчивым по отношению к контamination. Он основывается на использовании спектральных методов для выделения основной группы взаимосвязанных задач, а также на адаптивном контроле того, как зависимость между задачами может быть выражена в данных. Метод не требует предварительного знания о количестве контamination или размерности общего пространства, что делает его универсальным и легким в реализации. Основной идеей заключается в том, что RAS адаптивно извлекает информацию из данных, не поддающихся влиянию контamination, и сохраняет точность, необходимую для эффективного обучения. ## Результаты Эксперименты для проверки подхода RAS проводились на различных синтетических и реальных данных, включая задачи классификации и регрессии. Для этих задач были созданы ситуации с разным уровнем контamination, включая адверсарные задачи и незначительность основного вклада задач. Результаты показали, что RAS показывает высокую точность и устойчивость, даже при 80% контamination. Также было проведено сравнение с другими подходами в MTL, показав преимущества RAS в области сильно загрязненных данных. ## Значимость Разработанный подход имеет широкие применения в области многозадачного обучения, где требуется хранить эффективность даже при высоком количестве контamination. Он может применяться в различных сферах, таких как обработка языка, моделирование экономических данных, и даже медицинской интеллектуальной обработке данных. Основное преимущество RAS заключается в его устойчивости к загрязненным данным, что позволяет избежать негативного переобучения, которое может быть вызвано контamination. Это открывает новые возможности для применения MTL в реальных, часто за

Annotation:

Representation-based multi-task learning (MTL) improves efficiency by learning a shared structure across tasks, but its practical application is often hindered by contamination, outliers, or adversarial tasks. Most existing methods and theories assume a clean or near-clean setting, failing when contamination is significant. This paper tackles representation MTL with an unknown and potentially large contamination proportion, while also allowing for heterogeneity among inlier tasks. We introduce a...

ID: 2509.06575v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 Improving Generative Methods for Causal Evaluation via Simulation-Based Inference

2025-09-05

Авторы:

Pracheta Amaranath, Vinitra Muralikrishnan, Amit Sharma, David D. Jensen

## Контекст Оценка причинных связей в системах, принимающих решения, является ключевым аспектом для точного моделирования и предсказания результатов. Однако существуют значительные вызовы в том, как строить и оценивать модели, которые могут точно воспроизводить реальные наблюдаемые данные. Этот процесс становится еще более сложным при необходимости учитывать неопределенность в параметрах модели, таких как степень зависимости от причинных факторов (конфундирующие факторы) и уровень воздействия самих факторов. Обычно, пользователи приходят к выводу о максимальных возможных значениях этих параметров, но этот подход не позволяет выразить их неопределенность и не использует исходные данные для уточнения этих значений. Это отступление от реальства может привести к неточным оценкам качества модели. Наша исследовательская цель заключается в развитии методов, которые могут учитывать неопределенность в параметрах и использовать исходные данные для уточнения модели, чтобы повысить надежность оценок. ## Метод Мы предлагаем **Simulation-Based Inference for Causal Evaluation (SBICE)**, программный подход, позволяющий моделировать неопределенность в параметрах и создавать синтетические данные, наиболее близкие к наблюдаемым. Основной принцип SBICE заключается в том, чтобы рассматривать параметры модели как неизвестные переменные, а не как фиксированные значения. Это позволяет использовать методы симуляции для интерпретации исходных данных и настройки параметров таким образом, чтобы сгенерированные данные были схожи с теми, которые были в исходном наборе. Метод использует техники симуляции и методы построения моделей, которые могут адаптироваться к неопределенности в данных. Это позволяет более точно оценивать потенциальное влияние разных моделей и уменьшать ошибки, возникающие из-за несоответствия данных. ## Результаты Мы проверили SBICE на ряде экспериментов, используя различные наборы данных и ситуации, где необходимо оценить качество модели оценки причинных связей. Наши результаты показали, что SBICE предоставляет более точные и надежные оценки, поскольку он может учитывать не только точные значения параметров, но и их неопределенность. Мы сравнили результаты с другими подходами, в том числе с теми, которые не учитывают неопределенность в параметрах, и обнаружили, что SBICE дает более стабильные и точные результаты, особенно в ситуациях, когда данные несбалансированы или имеют высокий уровень конфундирования. Эти результаты подтверждают, что SBICE может быть эффективно применен для улучшения оценки моделей в сложных ситуациях. ## Значимость Программный подход SBICE может быть применен в различных областях, где требуется эффе

Annotation:

Generating synthetic datasets that accurately reflect real-world observational data is critical for evaluating causal estimators, but remains a challenging task. Existing generative methods offer a solution by producing synthetic datasets anchored in the observed data (source data) while allowing variation in key parameters such as the treatment effect and amount of confounding bias. However, existing methods typically require users to provide point estimates of such parameters (rather than dist...

ID: 2509.02892v1 cs.LG, stat.ME

arXiv PDF

📄 Sparse minimum Redundancy Maximum Relevance for feature selection

2025-08-28

Авторы:

Peter Naylor, Benjamin Poignard, Héctor Climente-González, Makoto Yamada

#### Контекст Обработка данных часто связана с использованием огромных наборов признаков, которые могут включать много нерелевантных и взаимосвязанных компонент. Это затрудняет использование многих алгоритмов машинного обучения, так как они могут сталкиваться с проблемами, такими как переобучение и высокая сложность вычислений. Целью многих методов feature selection является определение наиболее важных признаков, уменьшение размера набора данных и улучшение эффективности и точности алгоритмов. Однако, существующие методы часто не учитывают взаимозависимости между признаками или неэффективно используют зависимости с целевой переменной. #### Метод Предлагаемый метод, названный **Sparsified Minimum Redundancy Maximum Relevance (SmRMR)**, является подходом к feature selection, который учитывает как взаимосвязи между признаками, так и взаимосвязь между признаками и целевой переменной. Метод основан на минимуме ряда штрафов, использующих регуляризаторы, не являющиеся конвексивными, для отбора фичей, которые могут быть не значимы. Он использует не только зависимость между признаками (релевантность), но и их независимость от целевой переменной, чтобы идентифицировать "активные" признаки. Алгоритм построен на базе неконвексивного регуляризатора, который позволяет строить модели с меньшим числом признаков, но более точными. #### Результаты Чтобы проверить эффективность метода, проведены эксперименты с использованием синтетических данных и реальных данных, в которых были показаны преимущества SmRMR в сравнении с другими методами, такими как HSIC-LASSO. Данные эксперименты показали, что SmRMR не только способен определять активные признаки, но и уменьшает число ненужных признаков. Метод показал хорошие результаты в ситуациях, когда много признаков являются неактивными, что может повысить точность алгоритмов обучения. Однако, SmRMR более склонен к более консервативному выбору признаков, что в некоторых случаях может быть недостатком. #### Значимость Заявленный метод может быть использован в различных областях, где требуется выборка признаков, таких как биологическая инженерия, текстовый анализ, машинное обучение. Одним из преимуществ является то, что он не требует явного указания числа признаков для сохранения, в отличие от многих других методов. Также он показал хорошую способность идентифицировать неактивные признаки, что может сильно повысить эффективность моделей. Будущие исследования могут быть направлены на усовершенствование метода для обработки более сложных данных, таких как данные с высокой размерностью. #### Выводы Метод SmRMR является эффективным подходом к feature selection, который учитыва

Annotation:

We propose a feature screening method that integrates both feature-feature and feature-target relationships. Inactive features are identified via a penalized minimum Redundancy Maximum Relevance (mRMR) procedure, which is the continuous version of the classic mRMR penalized by a non-convex regularizer, and where the parameters estimated as zero coefficients represent the set of inactive features. We establish the conditions under which zero coefficients are correctly identified to guarantee accu...

ID: 2508.18901v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 Enhancing Differentially Private Linear Regression via Public Second-Moment

2025-08-27

Авторы:

Zilong Cao, Hai Zhang

## Контекст Область данных исследований посвящена улучшению различных методов работы с данными, которые используются в различных областях, включая медицину, финансы и анализ данных. Одной из важных областей является развитие методов, обеспечивающих гарантии конфиденциальности данных, чтобы защитить пользователей и информацию. Одна из проблем в этой области состоит в том, что традиционные методы работы с конфиденциальными данными, такие как методы работы с линейной регрессией, часто неэффективны из-за необходимости добавлять шум, что приводит к ухудшению точности и результатов. Из-за этой проблемы нужны новые подходы для улучшения того, как линейная регрессия работает в сценариях, где данные должны быть защищены. ## Метод Методология, представленная в этой работе, основывается на идее использования публичной информации для повышения точности метода работы с конфиденциальными данными. Авторы предлагают новый подход, в котором используется матрица второго момента, полученная из публичных данных, для преобразования исходных данных. Это позволяет уменьшить влияние шума, добавленного для защиты конфиденциальности. Результат этой преобразования — улучшенная модель линейной регрессии, которая может давать более точные и надежные результаты. Архитектура метода заключается в преобразовании данных с помощью публичной матрицы второго момента, а затем применение этой модели к защищенным данным. ## Результаты В ходе экспериментов над синтетическими и реальными данными показано, что предлагаемый подход дает значительное улучшение точности и устойчивости результатов в сравнении с традиционным методом работы с линейной регрессией. Данные, использованные в экспериментах, позволили подтвердить, что преобразование данных с помощью публичной матрицы второго момента действительно улучшает условия решения задачи, уменьшает влияние шума и улучшает точность регрессионной модели. Также были получены теоретические оценки точности и устойчивости нового метода, которые подтверждают пользу этого подхода по сравнению с существующими. ## Значимость Предлагаемый подход имеет широкие применения в областях, где требуется обеспечение конфиденциальности данных, такие как медицина, финансы и исследования. Одним из преимуществ является улучшение точности и надежности результатов, а также уменьшение влияния шума, добавляемого для защиты конфиденциальности. Это может привести к повышению качества решений в сферах, где требуется быстрый и точный анализ данных. Также, этот подход может иметь потенциал для распространения в других областях, где защита конф

Annotation:

Leveraging information from public data has become increasingly crucial in enhancing the utility of differentially private (DP) methods. Traditional DP approaches often require adding noise based solely on private data, which can significantly degrade utility. In this paper, we address this limitation in the context of the ordinary least squares estimator (OLSE) of linear regression based on sufficient statistics perturbation (SSP) under the unbounded data assumption. We propose a novel method t...

ID: 2508.18037v1 cs.LG, stat.ME, stat.ML

arXiv PDF

📄 A U-Statistic-based random forest approach for genetic interaction study

2025-08-23

Авторы:

Ming Li, Ruo-Sin Peng, Changshuai Wei, Qing Lu

## Контекст В последние годы резко вырос роль генетических факторов в исследовании сложных траекторий развития болезней. Одним из основных заданий генетических исследований является идентификация генов, которые взаимодействуют друг с другом и с внешними факторами окружающей среды, воздействуя на развитие различных характеристик. Традиционные методы, ориентированные на идентификацию одной или нескольких синергических пар генов, были ограничены в своих возможностях, несмотря на развитие информационных технологий. Особенно сложной является задача рассмотрения множественных генов и внешних факторов в контексте их взаимодействия. Ранние работы по идентификации гено-генных и гено-окружающих взаимодействий сталкивались с проблемами, связанными с высокой динамичностью генетических данных, вычислительной сложностью и ограниченностью мощности компьютерных систем. В этой статье предлагается новый подход, основанный на U-статистике, для улучшения эффективности методов идентификации взаимодействий. ## Метод Предложенный подход, названный Forest U-Test, основывается на использовании U-статистики, которая предназначена для оценки взаимодействий генов и внешних факторов в ходе идентификации кластеров и ассоциаций. Метод использует случайные лесы (random forests) для распределения данных и использования информации о взаимодействиях в каждом кластере. В разных этапах взаимодействия используется функция U-статистики, которая оценивает значимость каждого изменения в кластере. Это позволяет сократить количество вычислений и избежать проблемы экспоненциального роста количества возможностей, которая обычно связана с генетическими исследованиями. Данный подход предлагается для использования в случаях, когда имеется большое количество данных, включая не только генетические, но и внешние факторы. ## Результаты Для проверки эффективности метода были проведены симуляционные эксперименты и исследования на реальных данных. В результате проведенных экспериментов была продемонстрирована значительная преуспетьность Forest U-Test по сравнению с другими существующими методами. Например, в симуляционных исследованиях, проведенных на генетических данных, метод показал значительно более высокую точность в идентификации взаимодействий, чем уже существующие методы. Также, в приложении к исследованию зависимости от каннабиса (CD) на основе данных из трех независимых исследований из Study of Addiction: Genetics and Environment, была выявлена значимая комбинированная ассоциация с p-value меньше 0.001. Эти результаты были подтверждены в двух других независи

Annotation:

Variations in complex traits are influenced by multiple genetic variants, environmental risk factors, and their interactions. Though substantial progress has been made in identifying single genetic variants associated with complex traits, detecting the gene-gene and gene-environment interactions remains a great challenge. When a large number of genetic variants and environmental risk factors are involved, searching for interactions is limited to pair-wise interactions due to the exponentially in...

ID: 2508.14924v1 q-bio.GN, cs.AI, cs.LG, stat.ME

arXiv PDF

📄 Comparing Model-agnostic Feature Selection Methods through Relative Efficiency

2025-08-22

Авторы:

Chenghui Zheng, Garvesh Raskutti

## Контекст Область исследования критериев feature selection и importance estimation в моделях-независимых (model-agnostic setting) является важной и актуальной задачей в машинном обучении. Эти задачи играют ключевую роль при построении моделей, поскольку позволяют определить наиболее важные признаки, улучшая точность моделей и их прозрачность. Однако разработка модельно-независимых методов feature selection остается сложной, особенно когда требуется учитывать сложность моделей и высокие затраты вычислительных ресурсов. В настоящей работе авторы сосредоточились на feature selection методах, основанных на Generalized Covariance Measure (GCM) и Leave-One-Covariate-Out (LOCO) оценках. Эти методы широко используются, так как они могут быть применены к широкому классу моделей без ограничений на их внутреннюю архитектуру. Однако вопрос о том, какие из этих методов эффективнее в различных ситуациях, остается открытым. Наша мотивация заключается в сравнении этих методов с помощью показателя относительной эффективности и определении их преимуществ в разных моделях и условиях. ## Метод В ходе работы была проведена теоретическая и эмпирическая оценка двух методов feature selection: GCM и LOCO. Метод GCM основывается на измерении корреляции между признаками и целевой переменной, в то время как LOCO оценивает вклад каждого признака в модель, удаляя его по очереди и проверяя его влияние. Чтобы измерить относительную эффективность, авторы разработали теоретические результаты, основанные на трех различных моделях: линейных моделях, нелинейных аддитивных моделях и single-index моделях, которые моделируют некоторую сложность, похожую на single-layer neural network. Для практической оценки было проведено ряд симуляционных экспериментов и анализ реальных данных. Мы применили эти методы к различным машинным обучению алгоритмам, таким как градиентный бустинг деревьев и нейронные сети, чтобы проверить их эффективность в реальных условиях. Это позволило нам не только сравнить эффективность, но и оценить асимптотическую относительную эффективность каждого метода. ## Результаты Теоретические результаты показали, что GCM-методы обычно демонстрируют лучшую эффективность по сравнению с LOCO-методами при соблюдении определенных регулярных условий. Эти результаты были подтверждены эмпирическими исследованиями. Наши симуляции показали, что GCM-методы более эффективны в том случае, когда данные имеют сложную структуру, такую как аддитивные или нелинейные зависимости. Анализ реальных данных, включающий задачи классификации и регрессии, также поддерживает этот вывод. Наши результаты показали, что GCM-методы не только более эффективны, но и более устойчивы к выбо

Annotation:

Feature selection and importance estimation in a model-agnostic setting is an ongoing challenge of significant interest. Wrapper methods are commonly used because they are typically model-agnostic, even though they are computationally intensive. In this paper, we focus on feature selection methods related to the Generalized Covariance Measure (GCM) and Leave-One-Covariate-Out (LOCO) estimation, and provide a comparison based on relative efficiency. In particular, we present a theoretical compari...

ID: 2508.14268v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 Counterfactual Survival Q Learning for Longitudinal Randomized Trials via Buckley James Boosting

2025-08-19

Авторы:

Jeongjin Lee, Jong-Min Kim

## Контекст Одной из ключевых областей исследований в медицинских и клинических исследованиях является уточнение оптимальных динамических режимов лечения (optimal dynamic treatment regimes, ODTR) на основе данных с клиническими испытаниями. Несмотря на то, что многие методы, такие как Cox-based Q-learning, используются для оценки таких режимов, они часто сталкиваются с проблемами, такими как ограниченная способность обрабатывать сложные паттерны данных и устойчивость к биасу при неправильном моделировании. Дополнительно, в клинических испытаниях важна точность оценки результатов для уровней, таких как стадии лечения, чтобы избежать агрегирования биаса. Данная статья предлагает новую модель, BJ Boost Q learning, которая ориентирована на решение этих проблем, особенно в случае длительных клинических испытаний с правой законченностью (right censored survival data). ## Метод Метод BJ Boost Q learning основывается на интеграции Buckley James (BJ) boosting с методами Q-learning. Он использует модели accelerated failure time (AFT) для точного моделирования условной скорости выживаемости, что позволяет избегать проблем, связанных с неправильным моделированием. Метод также включает в себя iterative boosting, включая componentwise least squares и регрессионные деревья. Это позволяет производить более точную оценку Q-функций на каждой стадии лечения. Кроме того, BJ Boost Q learning не зависит от пропорциональных рисков (proportional hazards), что дает большую гибкость и устраняет биасы, которые могут возникать в классических подходах. ## Результаты Исследования показали, что BJ Boost Q learning выдает более точные результаты в задачах динамического лечения, особенно в сложных клинических ситуациях, когда данные подвержены законченности (right censoring). Для проверки работоспособности были проведены симуляционные эксперименты и анализ данных из ACTG175 HIV-триала. Эти исследования показали, что BJ Boost Q learning превышает современные методы, такие как Cox-based Q-learning, в точности оценки и быстродействии, особенно в многостадийных случаях, где существует риск агрегирования биаса. ## Значимость Благодаря своей гибкости и точности BJ Boost Q learning может быть применен в различных областях, включая клинические испытания, в которых необходимо оценивать динамические режимы лечения. Этот подход обеспечивает более точную индивидуализацию лечения и повышает достоверность результатов. Дальнейшие исследования могут сосредоточиться на расширении модели для учета новых факторов и интеграции с другими методами машинного обучения. ## Выводы BJ Boost Q learning представляет собой новую модель для оценки динамических режимов лечения, которая устраняет ограничения классических подходов. Результаты симуляций и клинического анализа демонстрируют высокую эффективность и точность этого метода,

Annotation:

We propose a Buckley James (BJ) Boost Q learning framework for estimating optimal dynamic treatment regimes under right censored survival data, tailored for longitudinal randomized clinical trial settings. The method integrates accelerated failure time models with iterative boosting techniques, including componentwise least squares and regression trees, within a counterfactual Q learning framework. By directly modeling conditional survival time, BJ Boost Q learning avoids the restrictive proport...

ID: 2508.11060v1 stat.ML, cs.LG, stat.ME

arXiv PDF

📄 Functional Analysis of Variance for Association Studies

2025-08-19

Авторы:

Olga A. Vsevolozhskaya, Dmitri V. Zaykin, Mark C. Greenwood, Changshuai Wei, Qing Lu

## Контекст Изучение функциональных ассоциаций генов с квалитетными характеристиками является ключевым вопросом в генетике и геномике. Хотя существуют методы, позволяющие обнаруживать ассоциации с обычными геномами, трудности возникают при детектировании молекулярных факторов, связанных с болезнями, уровень риска которых проявляется в результате взаимодействия множества генов. В статье предлагается расширенный подход, который позволяет проанализировать эти взаимоотношения и улучшить понимание генетического уровня патологии. ## Метод Метод FANOVA (Functional Analysis of Variance) для тестирования ассоциации версий генов с квалитетными характеристиками предполагает рассмотрение взаимодействия генов в геномном регионе с помощью функциональной модели. Метод основывается на анализе разности квадратов, использующей генетическое разнообразие, позволяя учитывать как рископовышающие, так и защищающие варианты. Отличительными чертами являются: (1) возможность анализа как обычных, так и редких генов; (2) учет линкед дисбаланса; и (3) возможность исследования различных разрессей вариантов в геномных регионах. ## Результаты В экспериментах проводился сравнительный анализ FANOVA с двумя популярными методами — SKAT (Sequence Kernel Association Test) и FLM (Functional Linear Models). Использовавшиеся данные включали симуляционные сценарии и реальные из серии Dallas Heart Study. Результаты показали, что FANOVA более эффективен, особенно при небольших размерах выборки или для генов с низким или средним эффектом. Например, FANOVA удалось обнаружить ассоциации с генами ANGPTL 4 и ANGPTL 3 в связи с ожирением, успешно детектируя оба, в то время как SKAT и FLM обнаружили только один. ## Значимость Предложенный подход может быть применен в различных областях, включая патогенез болезней, выявление рисков для селекции и терапевтические исследования. Он обладает высокой степенью переносимости и эффективности, особенно при работе с малыми выборками или генетическими вариантами с низкими эффектами. Это делает FANOVA привлекательным для широкого круга исследователей, желающих улучшить расширенный поиск генов, связанных с различными заболеваниями. ## Выводы Итоги исследований подтверждают высокую эффективность FANOVA в анализе генов, особенно в сравнении с другими методами. В дальнейшем будет необходимо расширить предложенный подход, внедрив дополнительные функции, позволяющие учитывать более сложные генетические интеррелейшены и улучшить точность диагностики генетических заболеваний.

Annotation:

While progress has been made in identifying common genetic variants associated with human diseases, for most of common complex diseases, the identified genetic variants only account for a small proportion of heritability. Challenges remain in finding additional unknown genetic variants predisposing to complex diseases. With the advance in next-generation sequencing technologies, sequencing studies have become commonplace in genetic research. The ongoing exome-sequencing and whole-genome-sequenci...

ID: 2508.11069v1 stat.AP, cs.LG, stat.ME

arXiv PDF

1
2
6
7
8
9

Показано 71 - 80 из 87 записей