Phase Transition for Stochastic Block Model with more than $\sqrt{n}$ Communities

2509.15822v1 stat.ML, cs.LG, math.PR, math.ST, stat.TH 2025-09-23
Авторы:

Alexandra Carpentier, Christophe Giraud, Nicolas Verzelen

Резюме на русском

## Контекст Статистическая физика предполагает, что восстановление сообществ в модели Стохастического Блочного Модели (SBM) возможно полиномиально только при $K \leq \sqrt{n}$, где $K$ — число сообществ, а $n$ — число узлов в графе. Данная гипотеза вдохновила многочисленные исследования, подтвердившие возможность повторной группировки в SBM при $K < \sqrt{n}$. Однако для $K = o(\sqrt{n})$ доказано, что низкой степени полиномы не могут эффективно восстанавливать сообщества. В 2025 году Chin et al. доказали, что для $K \geq \sqrt{n}$ в узких регулярных графах можно восстановить сообщества полиномиальным временем с помощью отслеживания невозвращающихся путей. Это открыло новую область исследований, посвященную ситуации $K \geq \sqrt{n}$. ## Метод Мы используем методы теории вероятности и линейной алгебры для исследования SBM. Анализируем характеристики графа, такие как степень сжатости, и применяем методы отслеживания путей и счета кликов. Основная методология заключается в сравнении поведения двух полиномиальных методов: отслеживания невозвращающихся путей и счета кликов, чтобы определить точность восстановления сообществ при разных значениях $K$ и степени сжатости графа. ## Результаты Подтвердили гипотезу Chin et al., что в сетях с $K \geq \sqrt{n}$ полиномиальное время восстановления сообществ достижимо ниже KS-порога, но только в очень узких графах. Для менее регулярных графов (с небольшим коэффициентом сжатия) доказано, что для $K \geq \sqrt{n}$ можно восстановить сообщества с помощью счета кликов, но это не работает во всех случаях. Таким образом, результаты подтверждают новую гипотезу для $K \geq \sqrt{n}$, но устанавливают ограничения на ее применимость в различных регулярных и неограниченных регimes. ## Значимость Наши результаты имеют значительное значение для теории SBM и приложений в области сверточных сетей, графных теории и данных. Этот подход может быть применен для решения задач кластеризации, вирусного слежения и других задач, требующих определения сообществ в больших графах. Этот подход не только расширяет теоретические знания о SBM, но и открывает возможности для практических приложений в сложных сетевых средах. ## Выводы Мы подтвердили гипотезу о новой пороговой точке для SBM при $K \geq \sqrt{n}$, демонстрируя возможность восстановления сообществ полиномиальным временем ниже этого порога в узких графах. Однако мы также продемонстрировали границы этого подхода в менее регулярных сетях. Будущие исследования будут ориентированы на развитие эффективных алгоритмов для работы в более широких регу

Abstract

Predictions from statistical physics postulate that recovery of the communities in Stochastic Block Model (SBM) is possible in polynomial time above, and only above, the Kesten-Stigum (KS) threshold. This conjecture has given rise to a rich literature, proving that non-trivial community recovery is indeed possible in SBM above the KS threshold, as long as the number $K$ of communities remains smaller than $\sqrt{n}$, where $n$ is the number of nodes in the observed graph. Failure of low-degree polynomials below the KS threshold was also proven when $K=o(\sqrt{n})$. When $K\geq \sqrt{n}$, Chin et al.(2025) recently prove that, in a sparse regime, community recovery in polynomial time is possible below the KS threshold by counting non-backtracking paths. This breakthrough result lead them to postulate a new threshold for the many communities regime $K\geq \sqrt{n}$. In this work, we provide evidences that confirm their conjecture for $K\geq \sqrt{n}$: 1- We prove that, for any density of the graph, low-degree polynomials fail to recover communities below the threshold postulated by Chin et al.(2025); 2- We prove that community recovery is possible in polynomial time above the postulated threshold, not only in the sparse regime of~Chin et al., but also in some (but not all) moderately sparse regimes by essentially counting clique occurence in the observed graph.

Ссылки и действия