Phase Transition for Stochastic Block Model with more than $\sqrt{n}$ Communities
2509.15822v1
stat.ML, cs.LG, math.PR, math.ST, stat.TH
2025-09-23
Авторы:
Alexandra Carpentier, Christophe Giraud, Nicolas Verzelen
Резюме на русском
## Контекст
Статистическая физика предполагает, что восстановление сообществ в модели Стохастического Блочного Модели (SBM) возможно полиномиально только при $K \leq \sqrt{n}$, где $K$ — число сообществ, а $n$ — число узлов в графе. Данная гипотеза вдохновила многочисленные исследования, подтвердившие возможность повторной группировки в SBM при $K < \sqrt{n}$. Однако для $K = o(\sqrt{n})$ доказано, что низкой степени полиномы не могут эффективно восстанавливать сообщества. В 2025 году Chin et al. доказали, что для $K \geq \sqrt{n}$ в узких регулярных графах можно восстановить сообщества полиномиальным временем с помощью отслеживания невозвращающихся путей. Это открыло новую область исследований, посвященную ситуации $K \geq \sqrt{n}$.
## Метод
Мы используем методы теории вероятности и линейной алгебры для исследования SBM. Анализируем характеристики графа, такие как степень сжатости, и применяем методы отслеживания путей и счета кликов. Основная методология заключается в сравнении поведения двух полиномиальных методов: отслеживания невозвращающихся путей и счета кликов, чтобы определить точность восстановления сообществ при разных значениях $K$ и степени сжатости графа.
## Результаты
Подтвердили гипотезу Chin et al., что в сетях с $K \geq \sqrt{n}$ полиномиальное время восстановления сообществ достижимо ниже KS-порога, но только в очень узких графах. Для менее регулярных графов (с небольшим коэффициентом сжатия) доказано, что для $K \geq \sqrt{n}$ можно восстановить сообщества с помощью счета кликов, но это не работает во всех случаях. Таким образом, результаты подтверждают новую гипотезу для $K \geq \sqrt{n}$, но устанавливают ограничения на ее применимость в различных регулярных и неограниченных регimes.
## Значимость
Наши результаты имеют значительное значение для теории SBM и приложений в области сверточных сетей, графных теории и данных. Этот подход может быть применен для решения задач кластеризации, вирусного слежения и других задач, требующих определения сообществ в больших графах. Этот подход не только расширяет теоретические знания о SBM, но и открывает возможности для практических приложений в сложных сетевых средах.
## Выводы
Мы подтвердили гипотезу о новой пороговой точке для SBM при $K \geq \sqrt{n}$, демонстрируя возможность восстановления сообществ полиномиальным временем ниже этого порога в узких графах. Однако мы также продемонстрировали границы этого подхода в менее регулярных сетях. Будущие исследования будут ориентированы на развитие эффективных алгоритмов для работы в более широких регу
Abstract
Predictions from statistical physics postulate that recovery of the
communities in Stochastic Block Model (SBM) is possible in polynomial time
above, and only above, the Kesten-Stigum (KS) threshold. This conjecture has
given rise to a rich literature, proving that non-trivial community recovery is
indeed possible in SBM above the KS threshold, as long as the number $K$ of
communities remains smaller than $\sqrt{n}$, where $n$ is the number of nodes
in the observed graph. Failure of low-degree polynomials below the KS threshold
was also proven when $K=o(\sqrt{n})$.
When $K\geq \sqrt{n}$, Chin et al.(2025) recently prove that, in a sparse
regime, community recovery in polynomial time is possible below the KS
threshold by counting non-backtracking paths. This breakthrough result lead
them to postulate a new threshold for the many communities regime $K\geq
\sqrt{n}$. In this work, we provide evidences that confirm their conjecture for
$K\geq \sqrt{n}$:
1- We prove that, for any density of the graph, low-degree polynomials fail
to recover communities below the threshold postulated by Chin et al.(2025);
2- We prove that community recovery is possible in polynomial time above the
postulated threshold, not only in the sparse regime of~Chin et al., but also in
some (but not all) moderately sparse regimes by essentially counting clique
occurence in the observed graph.