Explicit and Implicit Data Augmentation for Social Event Detection
2509.04202v1
cs.CL, cs.SI
2025-09-06
Авторы:
Congbo Ma, Yuxia Wang, Jia Wu, Jian Yang, Jing Du, Zitai Qiu, Qing Li, Hu Wang, Preslav Nakov
Резюме на русском
## Контекст
Социальное восприятие событий является важной задачей в области обработки естественного языка, которая состоит в идентификации и классификации важных событий из социальных сетей. Этот процесс напрямую зависит от качества меток, но обработка этих меток требует больших усилий и времени. В настоящее время существуют проблемы с доступностью больших объемов меток и их высокой стоимостью. Чтобы решить эти проблемы, развиваются методы автоматического повышения разнообразия данных и улучшения моделей. Одной из таких технологий является Augmentation framework for Social Event Detection (SED-Aug), которая использует текстовые и черновые методы для повышения качества моделей распознавания событий.
## Метод
SED-Aug является двухступенчатым фреймворком, объединяющим в себе текстовые и черновые методы. Текстовые методы включают в себя пять различных стратегий повышения диверсии текста с помощью бо LLM. Черновые методы включают в себя пять новых методов, работающих в пространстве входных данных, и генерируют как новые примеры, так и новые фичи. Эти методы работают с использованием структурированных смешанных входных данных. Главный этап SED-Aug заключается в двухэтапной маргинальной оптимизации, где каждый метод предлагает свои варианты, и где выбор самого подходящего метода происходит на основе сравнения с результатов других методов.
## Результаты
Для оценки SED-Aug проводились эксперименты на двух датасетах: Twitter2012 и Twitter2018. На Twitter2012 SED-Aug показал увеличение F1-меры на 17.67% в сравнении с лучшим базовым решением. На Twitter2018 увеличение F1-меры составило 15.57%. Эти результаты доказывают, что SED-Aug значительно повышает качество распознавания событий. Модель была оценена на различных классах событий, включая новизну, волатильность и структуру событий.
## Значимость
SED-Aug может применяться в различных сферах, таких как мониторинг социальных событий, анализ трендов в социальных сетях, а также в области анализа текстов для детектирования событий. Основные преимущества этой модели заключаются в ее универсальности и высокой точности. Она может использоваться в реальном времени и имеет потенциал для расширения в области машинного обучения и анализа данных.
## Выводы
SED-Aug доказала свою эффективность в повышении качества моделей распознавания событий в социальных сетях. Она предлагает новый подход к автоматическому повышению разнообразия данных и годится для использования в реальном времени. Направления будущих исследований могут включать расширение архитектуры для учета новых типов событий, а та
Abstract
Social event detection involves identifying and categorizing important events
from social media, which relies on labeled data, but annotation is costly and
labor-intensive. To address this problem, we propose Augmentation framework for
Social Event Detection (SED-Aug), a plug-and-play dual augmentation framework,
which combines explicit text-based and implicit feature-space augmentation to
enhance data diversity and model robustness. The explicit augmentation utilizes
large language models to enhance textual information through five diverse
generation strategies. For implicit augmentation, we design five novel
perturbation techniques that operate in the feature space on structural fused
embeddings. These perturbations are crafted to keep the semantic and relational
properties of the embeddings and make them more diverse. Specifically, SED-Aug
outperforms the best baseline model by approximately 17.67% on the Twitter2012
dataset and by about 15.57% on the Twitter2018 dataset in terms of the average
F1 score. The code is available at GitHub: https://github.com/congboma/SED-Aug.
Ссылки и действия
Дополнительные ресурсы: