Text Meets Topology: Rethinking Out-of-distribution Detection in Text-Rich Networks

2508.17690v1 cs.CL, cs.LG 2025-08-27
Авторы:

Danny Wang, Ruihong Qiu, Guangdong Bai, Zi Huang

Резюме на русском

## Контекст Текстовые сети, где текстовые признаки связаны с графовыми структурами, широко распространены в сферах социальных интернет-ресурсов, поиска и рекомендаций. Одна из сложностей в таких сетях — обнаружение выбросов (out-of-distribution, OOD), когда входные данные не соответствуют ожидаемым распределениям. Известные методы OOD-обнаружения часто акцентуются на перекрестных разделяемых классах или простых делениях по доменам, но не учитывают уникальные особенности сочетания текстов и топологии. Например, в социальных сетях OOD может проявляться в различии языковых шаблонов между обычными и ботовыми пользователями. Эта сложность требует развития методов, которые учитывают оба аспекта — текстовые и топологические. ## Метод Мы предлагаем TextTopoOOD — рамочное решение для OOD-обнаружения в текстовых сетях, которое учитывает оба аспекта. Метод включает ряд экспериментов: 1. **Перемены атрибутов** — обработка текста через аугментации и перестройки векторных представлений. 2. **Перемены структуры** — изменение графовых связей и семантических связей. 3. **Тематические разделяемые классы** — различия в тематике у групп. 4. **Разделяемые домены** — различия в задачах или сетях. Решение включает два новые компонента: (1) **Cross-Attention Module**, объединяющий локальные графовые структуры с текстовыми описаниями, и (2) **HyperNetwork**, генерирующий уникальные параметры для каждой точки, решающие проблему взаимодействия между топологией и текстом. ## Результаты Мы проверили TextTopoOOD на 11 датасетах в 4 типах OOD-сценариев. Метод продемонстрировал высокую точность в распознавании выбросов, превосходя существующие методы в сложных сценариях, включая перемены структуры и тематические разделяемые классы. Эксперименты показали, что TNT-OOD эффективно моделирует интеракцию текста и топологии, обеспечивая высокую точность в различных условиях. ## Значимость Текстовые сети широко используются в реальных задачах, таких как мониторинг социальных сетей, ранжирование поисковых результатов и рекомендация контента. TextTopoOOD может применяться для обнаружения ботов, фейковых аккаунтов, ошибочных рекомендаций и других проблем, связанных с нестандартными данными. Его основные преимущества заключаются в уникальном моделировании взаимодействия текста и топологии, что увеличивает точность и устойчивость OOD-обнаружения в текстовых сетях. ## Выводы Текстовые сети представляют уникальные сложности для OOD-обнаружения, требующие учета особенностей сочетания текста и топологии. TextTopoOOD — первый подход, который эфф

Abstract

Out-of-distribution (OOD) detection remains challenging in text-rich networks, where textual features intertwine with topological structures. Existing methods primarily address label shifts or rudimentary domain-based splits, overlooking the intricate textual-structural diversity. For example, in social networks, where users represent nodes with textual features (name, bio) while edges indicate friendship status, OOD may stem from the distinct language patterns between bot and normal users. To address this gap, we introduce the TextTopoOOD framework for evaluating detection across diverse OOD scenarios: (1) attribute-level shifts via text augmentations and embedding perturbations; (2) structural shifts through edge rewiring and semantic connections; (3) thematically-guided label shifts; and (4) domain-based divisions. Furthermore, we propose TNT-OOD to model the complex interplay between Text aNd Topology using: 1) a novel cross-attention module to fuse local structure into node-level text representations, and 2) a HyperNetwork to generate node-specific transformation parameters. This aligns topological and semantic features of ID nodes, enhancing ID/OOD distinction across structural and textual shifts. Experiments on 11 datasets across four OOD scenarios demonstrate the nuanced challenge of TextTopoOOD for evaluating OOD detection in text-rich networks.

Ссылки и действия