First-Extinction Law for Resampling Processes
2509.20101v1
stat.ML, cs.IT, cs.LG, math.IT, math.ST, physics.data-an, q-bio.PE, stat.TH
2025-09-26
Авторы:
Matteo Benati, Alessandro Londei, Denise Lanzieri, Vittorio Loreto
Резюме на русском
## Контекст
Результат процесса ресамплинга (resampling), когда количество групп (или элементов внутри каждой группы) становится равным нулю, называется first-extinction time. Оценка этого времени чрезвычайно важной задачей в различных областях, таких как адаптивные системы, генетика популяций и машинное обучение. Однако существующие формулы, оценивающие это время, вычисляются с использованием теории марковских процессов, требующей вычислений типа $2^M$, где $M$ — количество состояний в начальном распределении вероятностей. Это делает данные вычисления неэффективными для больших $M$ и, следовательно, требует развития более эффективных методов.
## Метод
Мы применяем анализ стохастических процессов для решения этой проблемы. Образующийся стохастический процесс, инвариантный к ресамплингу, моделируется как сумма двух независимых квадратно-корнячных диффузий с нулевым приращением. Это позволяет получить замыкающую формулу для first-extinction time, где математическое ожидание вычисляется с линейной сложностью $O(M)$ вместо экспоненциальной $O(2^M)$. Метод основывается на связи между эволюционным диффузионным процессом и теорией марковских процессов с локальным управлением.
## Результаты
Мы проверяем нашу формулу на различных ситуациях в симуляционном режиме. Для этого используем различные начальные распределения вероятностей, включая те, что имеют значительное количество состояний $M$. Результаты воспроизводятся в замыкающих формулах, подтверждающих точность вычислений. Это доказывает, что наш метод эффективно моделирует first-extinction time, даже при больших $M$.
## Значимость
Наш метод может применяться в следующих областях:
- Адаптивные системы (например, автоматические методы селекции в машинном обучении);
- Моделирование эволюционных процессов (например, мутации и вымирание в популяциях);
- Развитие теории моделирования в системах с коллапсом модели (model collapse), такого как в реплитных сетях (replicator networks).
Преимущество нашего подхода заключается в существенном уменьшении вычислительной сложности по сравнению с традиционными методами. Это позволяет увеличить скорость вычислений и расширить масштаб удаленного моделирования. Будущие исследования будут сфокусированы на расширении данного подхода к более сложным ситуациям, включая нелинейные диффузионные процессы.
## Выводы
Мы представляем метод, позволяющий вычислить first-extinction time в процессах ресамплинга с линейной сложностью. Этот подход эффективно моделирует процессы, связанные с модельным коллапсом, и пока
Abstract
Extinction times in resampling processes are fundamental yet often
intractable, as previous formulas scale as $2^M$ with the number of states $M$
present in the initial probability distribution. We solve this by treating
multinomial updates as independent square-root diffusions of zero drift,
yielding a closed-form law for the first-extinction time. We prove that the
mean coincides exactly with the Wright-Fisher result of Baxter et al., thereby
replacing exponential-cost evaluations with a linear-cost expression, and we
validate this result through extensive simulations. Finally, we demonstrate
predictive power for model collapse in a simple self-training setup: the onset
of collapse coincides with the resampling-driven first-extinction time computed
from the model's initial stationary distribution. These results hint to a
unified view of resampling extinction dynamics.