📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня

📄 Structured Information Loss in Network Embeddings

2025-09-18

Авторы:

Gabriel Chuang, Augustin Chaintreau

## Контекст Сетевые способности, или "embeddings", широко используются для понимания структуры данных в графах, включая социальные, биологические и информационные сети. Однако существуют серьезные ограничения в их возможностях их невозможность хранить всю информацию о структуре графа. Этот эффект, известный как "информационная потеря", может приводить к неточностям при задачах вроде обнаружения сообществ (community detection) и предсказания связей (link prediction). Наша мотивация заключается в изучении этого эффекта, его причин и последствий для различных типов задач. Мы исследуем условия под которыми сетевые способности могут либо полностью, либо частично сохранить статистическую структуру графа, а также определить эквивалентные классы графов, которые приводят к одинаковым способностям. ## Метод Мы изучили простую алгоритмическую модель для построения сетевых способностей, основанную на разложении графа по его степенной функции. Модель позволяет определить, какой процент информации о структуре графа сохраняется в полученных способностях. Для изучения условий информационной потери, мы использовали теорию графов и модели графов, которые называются "graphons". Эти модели позволяют исследовать общие структурные черты графов, независимо от их конкретного представления. Мы также проанализировали, как лишение информации в способностях влияет на задачи, такие как обнаружение сообществ и предсказание связей. ## Результаты Мы провели эксперименты на различных графах, включая синтетические и реальные, чтобы изучить поведение нашей модели. Мы показали, что в случае информационной потери, способности краткосрочно сохраняют сообщественную структуру, но значительно сбрасывают информацию о толщине связей (показатели динамики и частоты связей). Наша модель позволяет определить классы графов, которые приводят к одинаковым способностям, и мы показали, что эти классы сохраняют общую сообщественную структуру, но теряют детали, такие как толщина связей. Мы также проанализировали влияние этих потерь на задачи обнаружения сообществ и предсказания связей, показав, что подбор критериев для этих задач может повысить или уменьшить структурные биасы. ## Значимость Наши результаты имеют значительное значение для области обучения сетевых моделей. Они подчеркивают ограничения сетевых способностей в представлении сложной структуры графов и показывают, что даже при полном учете статистических черт, эти модели могут существенно ошибаться. Это имеет отношение к задачам, таким как обнаружение сообществ и предс

Annotation:

We analyze a simple algorithm for network embedding, explicitly characterizing conditions under which the learned representation encodes the graph's generative model fully, partially, or not at all. In cases where the embedding loses some information (i.e., is not invertible), we describe the equivalence classes of graphons that map to the same embedding, finding that these classes preserve community structure but lose substantial density information. Finally, we show implications for community ...

ID: 2509.12396v1 cs.SI, cs.LG

arXiv PDF

📄 The Role of Community Detection Methods in Performance Variations of Graph Mining Tasks

2025-09-13

Авторы:

Shrabani Ghosh, Erik Saule

## Контекст Графы широко используются для представления структуры взаимосвязей в различных областях, таких как социальные сети, биология, Интернет и финансы. Многие задачи в этих областях, такие как классификация узлов, предсказание связей и поиск траекторий, требуют эффективного анализа больших графов. Однако анализ таких графов, содержащих сотни тысяч или миллионов узлов и ребер, представляет собой сложную задачу. Для упрощения этой задачи алгоритмы детекции сообществ (community detection) могут разбить большой граф на меньшие подграфы, каждый из которых представляет собой коммунити (сообщество) узлов с большим количеством внутренних связей и меньшим количеством внешней связи. Эти сообщества могут помочь раскрыть структурные характеристики графа и упростить его анализ. Однако не существует единого метода детекции сообществ, который был бы эффективен для всех задач. В данном исследовании анализируются различные методы детекции сообществ и их влияние на выполнение задач графового майнинга. ## Метод В данной работе предлагается фреймворк для сравнительного анализа различных методов детекции сообществ и их воздействия на выполнение задач графового майнинга. Для этого был разработан фреймворк, который позволяет интегрировать различные методы детекции сообществ. Этот фреймворк позволяет проводить эксперименты с различными методами детекции сообществ и измерять их влияние на различные задачи, такие как классификация узлов и предсказание связей. Методы детекции сообществ включают групповые алгоритмы, такие как Louvain и Girvan-Newman, а также машинное обучение и статистические методы. Для каждого метода детекции сообществ проводился подробный анализ, включая параметры и ограничения. ## Результаты В ходе экспериментов было проанализировано влияние различных методов детекции сообществ на различные задачи графового майнинга. Для этого использовались различные графы, включая графы социальных сетей и биологических систем. Было показано, что различные методы детекции сообществ дают различные результаты в зависимости от конкретной задачи и характеристик графа. Например, для задачи классификации узлов оптимальным был метод Girvan-Newman, в то время как для задачи предсказания связей был более эффективен метод Louvain. Таким образом, выявлено, что выбор метода детекции сообществ значительно влияет на результат задачи графового майнинга. ## Значимость Результаты данного исследования имеют большое значение для практического применения методов детекции соо

Annotation:

In real-world scenarios, large graphs represent relationships among entities in complex systems. Mining these large graphs often containing millions of nodes and edges helps uncover structural patterns and meaningful insights. Dividing a large graph into smaller subgraphs facilitates complex system analysis by revealing local information. Community detection extracts clusters or communities of graphs based on statistical methods and machine learning models using various optimization techniques. ...

ID: 2509.09045v1 cs.SI, cs.LG

arXiv PDF

📄 Network Contagion in Financial Labor Markets: Predicting Turnover in Hong Kong

2025-09-12

Авторы:

Abdulla AlKetbi, Patrick Yam, Gautier Marti, Raed Jaradat

## Контекст Обработка данных из публичных реестров и анализ профессиональных сетей становятся важными средствами для анализа динамики рынков труда. Особенно это актуально для финансовых отраслей, где высока степень сетевой интеграции и важность профессиональных связей. В Республике Хонг Конг, где финансовый сектор является ключевым экономическим двигателем, высока интенсивность переходов между фирмами. Несмотря на это, значительной проблемой для регулирующих органов и руководителей остаются предсказание и управление выходом сотрудников. Большая часть исследований сосредоточена на демографических и экономических факторах, однако мало доказательств о влиянии профессиональных сетей. В нашем исследовании мы исследуем эти сетевые динамики для предсказания и понимания выхода сотрудников из фирм. ## Метод Мы использовали данные из публичного реестра Финансовой Комиссии Хонг-Конга за период 2007–2024 годов, чтобы построить графы рабочих сетей, включая 121 883 профессионалов и 4 979 фирм. Для каждого профессионала мы вычислили сетевые метрики, такие как степень и близость, и оценили их отношение к выходу сотрудников. Для анализа сетевого влияния мы разработали фреймворк пропагации графовых признаков, который учитывает как внутреннюю структуру сети, так и внешний контекст. Мы использовали машинные обучаемые модели, включая градиентный бустинг и линейные модели, для предсказания выхода. Также мы сравнили наши результаты с базовыми моделями, не учитывающими сетевое влияние. ## Результаты Наши результаты показали, что профессионалы, у которых более 30% друзей и коллег по сети покинули работу в течение шести месяцев, имеют 23% большую вероятность следовать им. Это сетевое влияние не только усиливается при большой дистанции (профессиональной близости), но и влияет даже на профессионалов, работающих в разных отделах. Мы обнаружили, что включение сетевых признаков в модели машинного обучения увеличивает точность предсказания выхода на 30% по сравнению с базовыми моделями, которые используют только демографические и экономические признаки. ## Значимость Наши результаты имеют значительное значение для нескольких областей: - **Регулирование:** Мы показали, что сетевые динамики могут быть использованы для повышения эффективности мониторинга потенциальных рисков в сетях финансовых профессионалов. - **Управление талантами:** Региональные и международные финансовые компании могут использовать наши результаты для оптимизации стратегий удержания персонала. - **Системные риски:** Наши находки

Annotation:

Employee turnover is a critical challenge in financial markets, yet little is known about the role of professional networks in shaping career moves. Using the Hong Kong Securities and Futures Commission (SFC) public register (2007-2024), we construct temporal networks of 121,883 professionals and 4,979 firms to analyze and predict employee departures. We introduce a graph-based feature propagation framework that captures peer influence and organizational stability. Our analysis shows a contagion...

ID: 2509.08001v1 cs.SI, cs.LG, stat.AP

arXiv PDF

📄 Temporal social network modeling of mobile connectivity data with graph neural networks

2025-09-05

Авторы:

Joel Jaskari, Chandreyee Roy, Fumiko Ogushi, Mikko Saukkoriipi, Jaakko Sahlsten, Kimmo Kaski

## Контекст Мобильные сети представляют собой сложную структуру, где узлы соответствуют пользователям, а ребра — их взаимодействиям, такими как звонки и SMS. Распространенным подходом к анализу таких сетей является моделирование их в виде графов. Однако стандартные графовые модели часто игнорируют временную структуру данных, что может привести к ошибочным выводам. Временные сети, в свою очередь, учитывают изменения в связях пользователей с течением времени, что делает их подход доступным для моделирования циклических взаимодействий в мобильных сетях. Несмотря на растущую популярность графовых нейронных сетей (GNN) в анализе графовых данных, их применение к временным мобильным сетям остается редким. В данном исследовании мы исследуем возможности GNN для моделирования временных мобильных сетей, основываясь на данных о мобильной связи. ## Метод Мы использовали данные о мобильных звонках и SMS из мобильной сети Финляндии за период с 2012 по 2017 год. Для моделирования временных мобильных сетей разработаны четыре модели на базе GNN: GAT-LSTM, GraphSAGE-LSTM, GCN-LSTM и ROLAND. Кроме того, разработан не-GNN-подход, основанный на EdgeBank. Модели GNN обучались предсказывать взаимодействия (звонки и SMS) между пользователями, используя набор временных снимков сети. Для оценки качества учитывались показатели F1-score и AUC. ## Результаты Ролланд (ROLAND) показал лучший результат по метрикам F1-score и AUC в почти всех случаях, сравниваясь со стандартным EdgeBank и другими GNN-моделями. Тем не менее, другие GNN-модели, включая GCN-LSTM, GraphSAGE-LSTM и GAT-LSTM, проигрывали EdgeBank в предсказаниях. Это подчеркивает необходимость разработки более специализированных GNN-архитектур для моделирования временных мобильных сетей. ## Значимость Результаты экспериментов показывают, что GNN могут быть эффективными для моделирования временных взаимодействий в мобильных сетях. Они могут использоваться для анализа трафика, прогнозирования социальных связей и мониторинга сетевых аномалий. Однако, необходимо продолжительное исследование, чтобы улучшить GNN для более точного моделирования временных сетей. ## Выводы Результаты исследования показывают, что GNN могут быть эффективными для моделирования временных мобильных сетей, но требуют развития специальных архитектур для достижения более высокой точности. ROLAND является самой эффективной моделью в этом направлении. Необходимо продолжать исследования в данном направлении для создания более стабильных и точных моделей.

Annotation:

Graph neural networks (GNNs) have emerged as a state-of-the-art data-driven tool for modeling connectivity data of graph-structured complex networks and integrating information of their nodes and edges in space and time. However, as of yet, the analysis of social networks using the time series of people's mobile connectivity data has not been extensively investigated. In the present study, we investigate four snapshot - based temporal GNNs in predicting the phone call and SMS activity between us...

ID: 2509.03319v1 cs.SI, cs.LG

arXiv PDF

📄 Population-Scale Network Embeddings Expose Educational Divides in Network Structure Related to Right-Wing Populist Voting

2025-09-02

Авторы:

Malte Lüken, Javier Garcia-Bernardo, Sreeparna Deb, Flavio Hafner, Megha Khosla

#### Контекст Современные общества часто организованы вокруг сетевых структур, где люди связаны с помощью различных социальных контекстов, таких как соседство, работа, семья и образование. Однако существуют значительные различия в доступе к ресурсам и возможностям в разных социальных сетях. Одна из таких различий — уровень образования — может оказать сильное влияние на политические предпочтения, включая голосование за правые популистские партии. Данное исследование концентрируется на изучении связи между социальными сетями, образовательными различиями и голосованием за правые популистские партии, используя методы машинного обучения для построения и интерпретирования моделей сетей на уровне населения. #### Метод Для строительения моделей сетей использовались реестры административных данных, которые позволили построить популяционно-масштабные сети, где взаимосвязи между людьми отражались в социальных контекстах. Использованная архитектура машинного обучения позволила получить сетевые представления — embeddings — для каждого человека, которые автоматически характеризуют его положение в сети. Для оценки информативности этих моделей произведено предсказание голосования за правые популистские партии. Для этого результаты сравнивались с использованием только индивидуальных характеристик, таких как возраст и пол. Для улучшения интерпретируемости моделей предпринято техническое преобразование embeddings, сделав их более четкими и ортогональными. #### Результаты Использование только embeddings для предсказания голосования за правые популистские партии показало незначительное превосходство над произвольным угадыванием. Однако при комбинировании этих моделей с индивидуальными характеристиками, такими как возраст и пол, улучшение было незначительным. Однако после технического преобразования embeddings, которое уменьшило меру корреляции между их компонентами, одна компонента особенно сильно связана с голосованием за правые популистские партии. Анализ этой компоненты вместе с сетевыми данными показал, что различия в структуре сетей, связанные с образовательными различиями, вносят значимый вклад в формирование политических предпочтений. #### Значимость Результаты этого исследования имеют многочисленные потенциальные применения в области политического прогнозирования, социальных наук и практике. Они демонстрируют, как population-scale network embeddings могут быть интерпретированы для выявления социальных различий в структурах сетей. Такие различие могут иметь неотъемлемое значение для понимания факторов, влияющих на политические предпочтения. Этот подход также открывает новые возможности для

Annotation:

Administrative registry data can be used to construct population-scale networks whose ties reflect shared social contexts between persons. With machine learning, such networks can be encoded into numerical representations -- embeddings -- that automatically capture individuals' position within the network. We created embeddings for all persons in the Dutch population from a population-scale network that represents five shared contexts: neighborhood, work, family, household, and school. To assess...

ID: 2508.21236v1 cs.SI, cs.LG, stat.AP, J.4

arXiv PDF

📄 Faster Inference of Cell Complexes from Flows via Matrix Factorization

2025-09-02

Авторы:

Til Spreuer, Josef Hoppe, Michael T. Schaub

#### Контекст В этом исследовании адресуется вопрос о выводе информации о ячейках из данных потоков на графах. Графы широко используются для моделирования систем, где существуют связи между компонентами, но не все компоненты могут быть строго определены в пространственном плане. Чтобы расширить модель, необходимо ввести дополнительные структуры, такие как 2-ячейки (полигоны, образуемые замкнутыми ненакрывающимися путями). Цель состоит в том, чтобы создать такую модель, чтобы представленные потоки могли быть адекватно описаны с помощью градиентных и крылатых потоков внутри созданных ячеек. Это позволяет повысить точность и интерпретируемость моделирования сложных систем. #### Метод Методология алгоритма основывается на методе матричного факторирования. Основной идеей является представить граф как ячейку, содержащую слои, которые могут быть представлены градиентным и крылатым потоком. Алгоритм использует матрицу, соответствующую графу, и строит новую матрицу, представляющую ячейки. Основное решение заключается в нахождении минимальных по норме факторов матрицы, которые соответствуют градиентным и крылатым потокам. Этот подход позволяет эффективно находить ячейки, которые могут быть добавлены к графу для лучшего представления потоков. #### Результаты Для проверки эффективности нового подхода проводились вычислительные эксперименты с разными количеством данных потоков и разным уровнем шума. Наборы данных были получены из реальных задач моделирования. Эксперименты показали, что новый метод работает значительно быстрее существующих алгоритмов, при этом делая только незначительные компромиссы в точности решения. Также было выявлено, что в шумных условиях новый алгоритм демонстрирует лучшую точность и быстродействие по сравнению с предыдущими подходами. #### Значимость Этот подход может быть применен в различных областях, где необходимо моделировать сложные системы, включая телекоммуникации, электронные системы и живые организмы. Он позволяет повысить точность моделей, уменьшить время расчета и повысить интерпретируемость результатов. Благодаря более быстрому и эффективному выводу ячеек, этот метод может стать ключевым инструментом в проектировании и анализе сложных систем, особенно в условиях высокой шумовой загрязненности. #### Выводы Новый метод оказался эффективным для решения проблемы вывода ячеек из потоков на графах, показав существенные выигрыши в скорости и частично в точности по сравнению с предыдущими подходами. Будущие исследовани

Annotation:

We consider the following inference problem: Given a set of edge-flow signals observed on a graph, lift the graph to a cell complex, such that the observed edge-flow signals can be represented as a sparse combination of gradient and curl flows on the cell complex. Specifically, we aim to augment the observed graph by a set of 2-cells (polygons encircled by closed, non-intersecting paths), such that the eigenvectors of the Hodge Laplacian of the associated cell complex provide a sparse, interpret...

ID: 2508.21372v1 cs.SI, cs.LG, eess.SP

arXiv PDF

📄 Learning Short-Term and Long-Term Patterns of High-Order Dynamics in Real-World Networks

2025-08-27

Авторы:

Yunyong Ko, Da Eun Lee, Song Kyung Yu, Sang-Wook Kim

#### Контекст Реальные сети, такие как социальные, экономические и биологические, обладают высокомеридианными взаимоотношениями между узлами, которые меняются со временем. Динамика таких сетей играет кллючевую роль в предвидении и расширении классификации сетевых явлений. Несмотря на успех многих моделей в задачах динамического анализа, остается трудность в полной характеристизации динамических взаимодействий, особенно при изучении высокомеридианных свойств. Эти характеристики включают короткосрочные структурные влияния и долгосрочные периодические возникновения взаимодействий. Наша мотивация заключается в разработке метода, который учитывает обе эти стороны динамики, чтобы повысить точность и охват моделирования динамических сетей. #### Метод Мы предлагаем LINCOLN (Learning hIgh-order dyNamiCs Of reaL-world Networks), метод, который сочетает принципы машинного обучения с специально разработанными стратегиями для представления характеристик динамики. LINCOLN использует: 1. **Bi-interactional hyperedge encoding**: для характеристики короткосрочных структурных взаимодействий. 2. **Periodic time injection**: для подчеркивания периодичности взаимодействий в долгосрочной перспективе. 3. **Intermediate node representation**: для улучшения точности предсказания посредством нодных представлений, которые учитывают междуузевские взаимодействия. Архитектура LINCOLN включает нейронные сети с узлами и рёбрами, которые обучаются распознавать сложные зависимости в данных. Эта модель основывается на предварительном анализе динамики, в том числе сетевых структур и темпоральных закономерностей. #### Результаты Мы провели ряд экспериментов на реальных данных, включая динамические сети из различных областей. LINCOLN был сравнен с девятью современными методами, и его показатели были выше по метрикам, таким как доля правильных предсказаний (accuracy) и F1-мерка. Мы также провели анализ чувствительности, показав, что LINCOLN стабильно демонстрирует высокую точность при различных уровнях шума и пропусков в данных. Изученные задачи включали динамическое предсказание связей, в том числе с учетом высокомеридианных зависимостей. #### Значимость LINCOLN может быть применён в областях, где важны динамические сетевые взаимодействия, таких как мониторинг социальных сетей, предвидение событий в экономике, идентификация резонансов в биологии. Метод выделяется своей способностью учитывать как короткосрочные, так и долгосрочные характеристики динамики, что делает его универсальным инструментом. Это улучшает точность и доверие в предсказаниях, а также позволяет расширить границы анализа динамических сетей. #### Выводы Мы ус

Annotation:

Real-world networks have high-order relationships among objects and they evolve over time. To capture such dynamics, many works have been studied in a range of fields. Via an in-depth preliminary analysis, we observe two important characteristics of high-order dynamics in real-world networks: high-order relations tend to (O1) have a structural and temporal influence on other relations in a short term and (O2) periodically re-appear in a long term. In this paper, we propose LINCOLN, a method for ...

ID: 2508.17236v1 cs.SI, cs.LG

arXiv PDF

📄 Dac-Fake: A Divide and Conquer Framework for Detecting Fake News on Social Media

2025-08-26

Авторы:

Mayank Kumar Jain, Dinesh Gopalani, Yogesh Kumar Meena, Nishant Jain

## Контекст Современное социальное восприятие реальности сильно зависит от информации, получаемой через социальные сети. Однако этот процесс подвержден широкому распространению фальшивой информации, которая может повлечь большие социальные и политические последствия. Несмотря на то, что методы факт-чекинга существуют, они часто неэффективны в реальном времени, требуя многочисленных человеческих ресурсов и значительного времени. Это привело к потребности в автоматизированных системах для быстрого и точного выявления фейки. Наша работа сосредоточена на разработке нового подхода, который может решить эти проблемы, обеспечив быструю и точную детекцию фейки на социальных платформах. ## Метод Мы предлагаем DaCFake, разделяющую и властвующую модель, которая сочетает в себе различные виды лингвистических признаков из текста и контекста. Модель делит задачу на подзадачи, анализируя текст и контекст с помощью различных методов. Для извлечения лингвистических признаков мы используем подходы, такие как Continuous Bag of Words (CBOW) и Skip-Gram. Эти признаки, вместе с контекстными данными, обрабатываются с помощью нейронных сетей, обеспечивая более точную детекцию. Мы также использовали кросс-валидацию для оценки производительности и улучшения модели. ## Результаты Мы проверили DaCFake на трех различных наборах данных: Kaggle, McIntire + PolitiFact и Reuter. Модель показала высокую точность: 97.88%, 96.05% и 97.32% соответственно. Эти результаты подтверждают высокую эффективность модели в выявлении фейковой информации. Кросс-валидация позволила улучшить устойчивость и надежность модели, делая её более надежной в различных условиях. Эти результаты указывают на то, что DaCFake может стать эффективным инструментом для борьбы с фейковыми новостями в онлайн-средах. ## Значимость DaCFake может быть применена в различных областях, включая мониторинг социальных сетей, управление репутацией и оценку влияния массовых средств массовой информации на общественное мнение. Её высокая точность и скорость делают её привлекательной для реального времени применения. Этот подход может способствовать уменьшению распространения недостоверной информации, способствуя более честному и точному общественному дискурсу. ## Выводы Мы представляем DaCFake, новую модель для выявления фейковых новостей, использующую разделяющий подход. Модель показала свою эффективность на трех разных наборах данных, достигнув высокой точности детекции. Наш работа подчеркивает важность развития автоматизированных методов для борьбы с фейковой информацией. Мы планируем в буду

Annotation:

With the rapid evolution of technology and the Internet, the proliferation of fake news on social media has become a critical issue, leading to widespread misinformation that can cause societal harm. Traditional fact checking methods are often too slow to prevent the dissemination of false information. Therefore, the need for rapid, automated detection of fake news is paramount. We introduce DaCFake, a novel fake news detection model using a divide and conquer strategy that combines content and ...

ID: 2508.16223v1 cs.SI, cs.LG

arXiv PDF

Показано 11 - 18 из 18 записей