Online Conformal Selection with Accept-to-Reject Changes
2508.13838v1
stat.ML, cs.LG
2025-08-21
Авторы:
Kangdao Liu, Huajun Xi, Chi-Man Vong, Hongxin Wei
Резюме на русском
#### Контекст
Одной из ключевых задач в области выбора и классификации является поиск продвинутых кандидатов в большом количестве кандидатов. Например, в научном исследовании или реальных приложениях, таких как фармацевтика или дорожный опрос, необходимо выделить наиболее многообещающие кандидаты для последующих исследований. Обычно для этого используются методы соответствия (conformal selection), которые предлагают распределение-независимое и модельно-независимое решение для выделения кандидатов с осмысленным расчетом неопределенности. Однако традиционные методы соответствия работают лучше в оффлайн-настройке, где данные приходят в пакетах. В онлайн-режиме, когда данные поступают последовательно, эти методы становятся менее эффективными, особенно когда выделение кандидата требует необратимых решений (например, в оптимизации или ресурсно-интенсивных задачах).
#### Метод
Мы предлагаем продвинутый метод, который будет называться Online Conformal Selection with Accept-to-Reject Changes (OCS-ARC). Алгоритм OCS-ARC добавляет новую функцию, позволяющую рассмотреть невыбранные кандидаты позднее в процессе, и делает выбор кандидатов более необратимым. Мы используем онлайн-процедуру Benjamini-Hochberg для контроля ложноположительных результатов (FDR) на каждом шаге. Основное отличие OCS-ARC заключается в том, что он работает в онлайн-режиме, где каждая последовательная стадия данных оценивается в рамках необратимых решений. Метод также проверяется в многомерных случаях, что делает его универсальным для различных аспектов выбора.
#### Результаты
Мы провели эксперименты с использованием синтетических и реальных данных, чтобы проверить эффективность OCS-ARC. Наши результаты показали, что данный метод выдает более высокий выборочный показатель по сравнению с базовыми методами, при этом сохраняя контроль FDR на всех стадиях. Это означает, что OCS-ARC не только эффективен, но и выдерживает требования к контролю ошибок в сложных онлайн-сценариях. Мы также проверили расширенные варианты OCS-ARC для многомерных случаев, которые также демонстрируют высокую эффективность.
#### Значимость
OCS-ARC может быть применен в различных областях, где необходимо выбор продвинутых кандидатов в последовательных потоках данных. Например, это может быть полезно в фармакологии, когда выбор продвинутых лекарственных средств требует необратимых решений. Основное преимущество OCS-ARC заключается в том, что он позволяет улучшить эффективность выбора, не теряя контроля FDR. Это делает его перспективным для решения задач в реальном времени, где необходима отсутствие обратных процессов.
#### Выводы
OCS-ARC представляет со
Abstract
Selecting a subset of promising candidates from a large pool is crucial
across various scientific and real-world applications. Conformal selection
offers a distribution-free and model-agnostic framework for candidate selection
with uncertainty quantification. While effective in offline settings, its
application to online scenarios, where data arrives sequentially, poses
challenges. Notably, conformal selection permits the deselection of previously
selected candidates, which is incompatible with applications requiring
irreversible selection decisions. This limitation is particularly evident in
resource-intensive sequential processes, such as drug discovery, where
advancing a compound to subsequent stages renders reversal impractical. To
address this issue, we extend conformal selection to an online Accept-to-Reject
Changes (ARC) procedure: non-selected data points can be reconsidered for
selection later, and once a candidate is selected, the decision is
irreversible. Specifically, we propose a novel conformal selection method,
Online Conformal Selection with Accept-to-Reject Changes (dubbed OCS-ARC),
which incorporates online Benjamini-Hochberg procedure into the candidate
selection process. We provide theoretical guarantees that OCS-ARC controls the
false discovery rate (FDR) at or below the nominal level at any timestep under
both i.i.d. and exchangeable data assumptions. Additionally, we theoretically
show that our approach naturally extends to multivariate response settings.
Extensive experiments on synthetic and real-world datasets demonstrate that
OCS-ARC significantly improves selection power over the baseline while
maintaining valid FDR control across all examined timesteps.
Ссылки и действия
Дополнительные ресурсы: