Online Conformal Selection with Accept-to-Reject Changes

2508.13838v1 stat.ML, cs.LG 2025-08-21
Авторы:

Kangdao Liu, Huajun Xi, Chi-Man Vong, Hongxin Wei

Резюме на русском

#### Контекст Одной из ключевых задач в области выбора и классификации является поиск продвинутых кандидатов в большом количестве кандидатов. Например, в научном исследовании или реальных приложениях, таких как фармацевтика или дорожный опрос, необходимо выделить наиболее многообещающие кандидаты для последующих исследований. Обычно для этого используются методы соответствия (conformal selection), которые предлагают распределение-независимое и модельно-независимое решение для выделения кандидатов с осмысленным расчетом неопределенности. Однако традиционные методы соответствия работают лучше в оффлайн-настройке, где данные приходят в пакетах. В онлайн-режиме, когда данные поступают последовательно, эти методы становятся менее эффективными, особенно когда выделение кандидата требует необратимых решений (например, в оптимизации или ресурсно-интенсивных задачах). #### Метод Мы предлагаем продвинутый метод, который будет называться Online Conformal Selection with Accept-to-Reject Changes (OCS-ARC). Алгоритм OCS-ARC добавляет новую функцию, позволяющую рассмотреть невыбранные кандидаты позднее в процессе, и делает выбор кандидатов более необратимым. Мы используем онлайн-процедуру Benjamini-Hochberg для контроля ложноположительных результатов (FDR) на каждом шаге. Основное отличие OCS-ARC заключается в том, что он работает в онлайн-режиме, где каждая последовательная стадия данных оценивается в рамках необратимых решений. Метод также проверяется в многомерных случаях, что делает его универсальным для различных аспектов выбора. #### Результаты Мы провели эксперименты с использованием синтетических и реальных данных, чтобы проверить эффективность OCS-ARC. Наши результаты показали, что данный метод выдает более высокий выборочный показатель по сравнению с базовыми методами, при этом сохраняя контроль FDR на всех стадиях. Это означает, что OCS-ARC не только эффективен, но и выдерживает требования к контролю ошибок в сложных онлайн-сценариях. Мы также проверили расширенные варианты OCS-ARC для многомерных случаев, которые также демонстрируют высокую эффективность. #### Значимость OCS-ARC может быть применен в различных областях, где необходимо выбор продвинутых кандидатов в последовательных потоках данных. Например, это может быть полезно в фармакологии, когда выбор продвинутых лекарственных средств требует необратимых решений. Основное преимущество OCS-ARC заключается в том, что он позволяет улучшить эффективность выбора, не теряя контроля FDR. Это делает его перспективным для решения задач в реальном времени, где необходима отсутствие обратных процессов. #### Выводы OCS-ARC представляет со

Abstract

Selecting a subset of promising candidates from a large pool is crucial across various scientific and real-world applications. Conformal selection offers a distribution-free and model-agnostic framework for candidate selection with uncertainty quantification. While effective in offline settings, its application to online scenarios, where data arrives sequentially, poses challenges. Notably, conformal selection permits the deselection of previously selected candidates, which is incompatible with applications requiring irreversible selection decisions. This limitation is particularly evident in resource-intensive sequential processes, such as drug discovery, where advancing a compound to subsequent stages renders reversal impractical. To address this issue, we extend conformal selection to an online Accept-to-Reject Changes (ARC) procedure: non-selected data points can be reconsidered for selection later, and once a candidate is selected, the decision is irreversible. Specifically, we propose a novel conformal selection method, Online Conformal Selection with Accept-to-Reject Changes (dubbed OCS-ARC), which incorporates online Benjamini-Hochberg procedure into the candidate selection process. We provide theoretical guarantees that OCS-ARC controls the false discovery rate (FDR) at or below the nominal level at any timestep under both i.i.d. and exchangeable data assumptions. Additionally, we theoretically show that our approach naturally extends to multivariate response settings. Extensive experiments on synthetic and real-world datasets demonstrate that OCS-ARC significantly improves selection power over the baseline while maintaining valid FDR control across all examined timesteps.

Ссылки и действия