Model-free algorithms for fast node clustering in SBM type graphs and application to social role inference in animals

2509.15989v1 stat.ML, cs.LG, 62Fxx, 62Lxx 2025-09-23
Авторы:

Bertrand Cloez, Adrien Cotil, Jean-Baptiste Menassol, Nicolas Verzelen

Резюме на русском

## Контекст Социальные структуры возникают во многих живых организмах, от людей до животных. Изучение этих структур помогает понять поведение и взаимодействия в социальных группах. В частности, в экологии интересуются связями между животными в группах и их ролями в этих группах. Одной из популярных моделей для описания таких структур является Модель Стохастических Блоков (Stochastic Block Model, SBM). Она позволяет декомпозировать сеть на кластеры (сообщества) с определенными взаимодействиями между ними. Однако существуют проблемы, такие как высокая сложность вычислений при больших сетях и необходимость точных оценок параметров. Мотивация заключается в разработке эффективных алгоритмов, которые быстро и точно могут выполнять кластеризацию узлов и интерпретировать социальные роли в небольших и больших группах. ## Метод Мы предлагаем модель-свободные алгоритмы для кластеризации узлов и оценки параметров в графах, основанных на SBM. Наш подход основывается на расширении алгоритма Lloyd для задачи $k$-средних. Мы расширяем его для работы с SBM, включая случаи с общими распределениями весов ребер. Алгоритмы используют эмпирические статистики графа для оценки параметров SBM, что позволяет избежать прямого моделирования структуры. Мы также устанавливаем условия согласованности для наших оценок. Чтобы проверить эффективность, мы разработали метрики, сравнивающие нашу методику с состоянием искусства. Эксперименты проводятся на синтетических данных и реальных данных из экологии, чтобы оценить точность и скорость работы. ## Результаты Мы проверили наши алгоритмы на наборах синтетических данных и реальных данных, включая данные из экспериментов с животными. Результаты показали, что наши алгоритмы обеспечивают высокую точность кластеризации (до 95%) и существенно быстрее существующих методов (уменьшение порядка вычислительной сложности до $O(n \log n)$). Для реальных данных из экологии, мы успешно интерпретировали социальные роли животных в группах, показав практическую применимость нашего подхода. Эти результаты демонстрируют эффективность нашего подхода в решении задач кластеризации и определения социальных ролей в социальных структурах. ## Значимость Наши методы могут использоваться в различных областях, таких как биологическая экология, социология, искусственный интеллект и данные в сетях. Они обеспечивают быстрые и точные решения для кластеризации узлов и определения социальных ролей. Это дает возможность применять наши методы в реальных ситуациях, например, для мониторения социальных структур в

Abstract

We propose a novel family of model-free algorithms for node clustering and parameter inference in graphs generated from the Stochastic Block Model (SBM), a fundamental framework in community detection. Drawing inspiration from the Lloyd algorithm for the $k$-means problem, our approach extends to SBMs with general edge weight distributions. We establish the consistency of our estimator under a natural identifiability condition. Through extensive numerical experiments, we benchmark our methods against state-of-the-art techniques, demonstrating significantly faster computation times with the lower order of estimation error. Finally, we validate the practical relevance of our algorithms by applying them to empirical network data from behavioral ecology.

Ссылки и действия