📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 A Transformer-Based Cross-Platform Analysis of Public Discourse on the 15-Minute City Paradigm

2025-09-17

Авторы:

Gaurab Chhetri, Darrell Anderson, Boniphace Kutela, Subasish Das

################################# ## Контекст ################################# Основная цель исследования — изучить публичное мнение о 15-минутном городе, анализируя данные из различных источников: Twitter, Reddit и новостных сайтов. Этот подход позволяет изучить различные аспекты этой идеи в разных форматах текста: длинных сообщениях, коротких сообщениях и новостных статьях. Область 15-минутного города — это новая концепция, предлагающая, чтобы все жители города могли достичь работы, дома, магазинов, школ и развлечений в пределах 15 минут ходьбы или велосипедной поездки. Хотя эта идея привлекает внимание в мировой публичности, существуют разногласия относительно ее реализации и последствий. Некоторые считают, что это может улучшить качество жизни и снизить загрязнение окружающей среды, в то время как другие выражают беспокойство о возможных ограничениях свободы и необходимости перестройки городских структур. Данное исследование предлагает многоплатформенный подход к анализу этих точек зрения, чтобы понять, как мнение меняется в зависимости от источника текста. ################################# ## Метод ################################# Для анализа был разработан концептуальный конвейер, объединяющий несколько технических решений. Использовались компрессированные модели трансформера для классификации тональности текста. Основная модель — Llama-3-8B — использовалась для аннотации данных. Изучались длинные и краткие тексты, чтобы обеспечить поддержку различных форматов сообщений. Для оценки качества работы конвейера были использованы пять моделей классификации: DistilRoBERTa, DistilBERT, MiniLM, ELECTRA и TinyBERT. Для качественного сравнения этих моделей был применен стратифицированный 5-кратный метод кросс-валидации. Оценкой качества стали F1-меры, AUC и время обучения. ################################# ## Результаты ################################# Проведение экспериментов показало, что DistilRoBERTa демонстрирует наивысшую точность с F1-мерой 0.8292. TinyBERT, в свою очередь, проявила себя как наиболее эффективная в плане скорости. MiniLM, помимо высокой точности, показала наилучшую устойчивость к разным платформам. В целом, новостные данные демонстрируют высокую точность в плане классификации, но страдают от проблемы несбалансированных классов. Reddit теряет в качестве из-за суммирования сообщений, что приводит к потере контекста. Twitter, в свою очередь, представляет умеренную сложность. ################################# ## Значимость ################################# Результаты этого исследования могут быть применены в многочисленных областях, включая градостроительство, коммуникацию и моделирование мнений. Изучение публичного мнения помогает городским властям понять реакцию граждан на идею 15-минутного города и выработа

Annotation:

This study presents the first multi-platform sentiment analysis of public opinion on the 15-minute city concept across Twitter, Reddit, and news media. Using compressed transformer models and Llama-3-8B for annotation, we classify sentiment across heterogeneous text domains. Our pipeline handles long-form and short-form text, supports consistent annotation, and enables reproducible evaluation. We benchmark five models (DistilRoBERTa, DistilBERT, MiniLM, ELECTRA, TinyBERT) using stratified 5-fold...

ID: 2509.11443v1 cs.CL, cs.SI

arXiv PDF

📄 CognitiveSky: Scalable Sentiment and Narrative Analysis for Decentralized Social Media

2025-09-17

Авторы:

Gaurab Chhetri, Anandi Dutta, Subasish Das

## Контекст В последние годы появились новые модели социальных сетей, основанные на принципах децентрализации, позволяющие пользователям управлять своими данными и обеспечивать большую свободу выражения. Однако реализация децентрализованных платформ социальных сетей привносит новые сложности в реальном времени анализировать общественное мнение и художественную литературу. Недостаток в инструментах для мониторинга и анализа децентрализованных платформ социальных сетей становится видимым, особенно в свете роста их популярности. Это подчеркивает необходимость разработки специализированных инструментов, которые могли бы удовлетворить потребности мониторинга и анализа данных в этих сетях. CognitiveSky — это открытое программное обеспечение, разработанное для решения этой проблемы. Оно представляет собой мощный инструмент для анализа тональности, эмоций и рассказов в социальных сетях, в частности на платформе Bluesky. Данный инструмент предназначен для мониторинга общественного мнения в децентрализованных сетях, а также для изучения эмоциональной структуры и тематики обсуждений. ## Метод CognitiveSky использует мощные трансформер-based модели для анализа тональности и эмоций в пользовательских сообщениях. Функционал анализа включает в себя обработку текста, аннотацию пользовательских сообщений, а также структурирование результатов для дальнейшего анализа. Основная архитектура CognitiveSky заключается в интеграции моделей трансформера с децентрализованными системами обмена данными, что позволяет ему обрабатывать большие объемы данных в реальном времени. Компонент модели, отвечающий за анализ текста, использует модели типа BERT (Bidirectional Encoder Representations from Transformers) для понимания тональности и эмоционального содержания сообщений. Этот подход позволяет определить атмосферу конкретного поста или диалога. Для мониторинга темы и динамики обсуждений построена специальная модель, которая использует данные о публикациях в реальном времени для создания динамической модели тематик и тем пользовательских сообщений. ## Результаты Для тестирования CognitiveSky был проведен эксперимент на данных, собранных с платформы Bluesky. Было использовано более 10 тысяч пользовательских сообщений, которые были аннотированы с помощью модели трансформера. Результаты показали, что CognitiveSky способен примерно точно определять тональность и эмоции сообщений с 95% достоверностью. Также проведены эксперименты на темы и тематиках пользовательских сообщений, что позволило распределить обсуждения по темам, таким как "здоровье", "политика" и "бизнес". Динамический дашборд, который генерируется на основе результатов модели, демонстрирует ра

Annotation:

The emergence of decentralized social media platforms presents new opportunities and challenges for real-time analysis of public discourse. This study introduces CognitiveSky, an open-source and scalable framework designed for sentiment, emotion, and narrative analysis on Bluesky, a federated Twitter or X.com alternative. By ingesting data through Bluesky's Application Programming Interface (API), CognitiveSky applies transformer-based models to annotate large-scale user-generated content and pr...

ID: 2509.11444v1 cs.CL, cs.SI

arXiv PDF

📄 Agentic Username Suggestion and Multimodal Gender Detection in Online Platforms: Introducing the PNGT-26K Dataset

2025-09-17

Авторы:

Farbod Bijary, Mohsen Ebadpour, Amirhosein Tajbakhsh

## Контекст Задачи понимания языка и анализа цифровых идентитетов возникают во многих приложениях, от социальных сетей до центров вызовов. Одна из сложных проблем в этой области — определение пола пользователя на основе его имени или других текстовых данных. Это особенно актуально для языков с уникальными транслитерационными и именновыми паттернами, таких как персидский. Существующие решения часто сталкиваются с ошибками, особенно при работе с нестандартными именами или недостаточно представительными данными. Это приводит к понижению качества услуг и недовольство пользователей. Мы предлагаем PNGT-26K — большую, представительную базу данных персидских имён, и два инструмента для её использования: Open Gender Detection и Nominalist. ## Метод PNGT-26K — это база данных, состоящая из примерно 26,000 записей, каждая содержащая персидское имя, его типичное полное склонение, английскую транслитерацию и связанное пол. Данные собраны с помощью статистического анализа и оптимизированы для применения в гендерном определении. Для вычислительного эффективности мы внедрили Open Gender Detection, использующий свёрточные нейронные сети для определения пола с использованием имени и фото. Для создания новых юзернеймов мы предложили Nominalist, основанный на агентном AI, который помогает пользователям найти новое имя, сочетая семантическую аналитику с творческим подходом. ## Результаты Мы провели обширные эксперименты для оценки качества PNGT-26K, Open Gender Detection и Nominalist. Для гендерного определения использовались тысячи изображений и имен, что позволило достичь высокой точности. Для Nominalist мы проверили генерацию юзернеймов на ряде пользовательских сценариев, установив его эффективность в генерировании новых идей. ## Значимость PNGT-26K, Open Gender Detection и Nominalist могут применяться в различных областях, таких как социальные сети, сервисы поддержки клиентов и платформы регистрации. Они обеспечивают более точное понимание пола пользователя и помогают создать более личностный и точный юзернейм. Эти инструменты также способствуют улучшению пользовательского опыта и уменьшению барьеров для новых пользователей в цифровых пространствах. ## Выводы Мы представили PNGT-26K, Open Gender Detection и Nominalist — инновационные решения для проблемы определения пола и генерирования юзернеймов в контексте персидских имен. Наши работы могут способствовать развитию методов анализа языка и поддержки цифровой идентитети в широких приложениях. Мы планируем расширить нашу работу на другие языки и приложения, а также создать более сложные модели для понимания цифровых идентитетов.

Annotation:

Persian names present unique challenges for natural language processing applications, particularly in gender detection and digital identity creation, due to transliteration inconsistencies and cultural-specific naming patterns. Existing tools exhibit significant performance degradation on Persian names, while the scarcity of comprehensive datasets further compounds these limitations. To address these challenges, the present research introduces PNGT-26K, a comprehensive dataset of Persian names, ...

ID: 2509.11136v1 cs.LG, cs.AI, cs.CL, cs.SI

arXiv PDF

📄 Generative Engine Optimization: How to Dominate AI Search

2025-09-13

Авторы:

Mahe Chen, Xiaoxuan Wang, Kaiwen Chen, Nick Koudas

## Контекст Область исследования сфокусирована на влиянии развивающихся технологий, таких как AI Search, на традиционные методы организации информации в интернете. Существующая проблема заключается в том, что традиционные подходы к оптимизации для систем поиска (Search Engine Optimization, SEO) становятся менее эффективными в отношении новых систем, таких как ChatGPT, Perplexity и Gemini. Эти системы изменяют способ поиска и представления информации, переходя от традиционных рейтинговых списков к синтезированным, цитируемым ответам. Это создает необходимость в разработке нового подхода, Generative Engine Optimization (GEO), который бы специализировался на оптимизации для AI-поисковых систем. Мотивация заключается в том, чтобы понять, как эти новые системы работают, и как оптимизировать контент, чтобы оставаться видимыми в новой среде поиска. ## Метод Для исследования использовались бо LLM (Large Language Models), которые анализировали различия в поведении AI Search и традиционных систем поиска. Методология включала в себя широкий спектр экспериментов, включающих запросы на различных языках, стилистическими вариациями и различными тематиками. Был проведен сравнительный анализ того, как разные AI-системы и традиционные поисковые системы, такие как Google, обрабатывают запросы и возвращают ответы. Особое внимание уделялось изучению системного биаса, который показывал, как AI Search отдают предпочтение определенному типу контента, аддикт структуру и избегают других. Данные были собраны из различных источников и проанализированы с помощью статистических методов, чтобы выделить существенные различия в поведении AI Search. ## Результаты Эксперименты показали, что AI Search значительно отличаются от традиционных систем поиска. Они предпочитают Earned Media (третьичные источники, например, блоги, статьи в журналах) в отличие от Brand-owned и Social Content. Это создает новую модель взаимодействия с пользователем, где требуется больше авторитетного, независимого контента. Также было выявлено, что разные AI-системы отличаются по Domain Diversity (разнообразию источников), Freshness (актуальности информации) и Cross-Language Stability (постоянности результатов в разных языках). Например, Gemini демонстрирует лучшую Freshness, а Perplexity — более высокую Domain Diversity. Кроме того, были выявлены сильные Cross-Language и Phrasing Sensitivity (чувствительность к вариациям запросов и языковых вариантов). ## Значимость Результаты имеют большое значение для разных областей. Они могут быть применены в SEO, content marketing, и digital strategy. Одним из основных преимуществ нового подхода является улучшение видимости контента в AI Search, что может привести к повышению доверия пользователей и увеличению конверсий. Благодаря анализу

Annotation:

The rapid adoption of generative AI-powered search engines like ChatGPT, Perplexity, and Gemini is fundamentally reshaping information retrieval, moving from traditional ranked lists to synthesized, citation-backed answers. This shift challenges established Search Engine Optimization (SEO) practices and necessitates a new paradigm, which we term Generative Engine Optimization (GEO). This paper presents a comprehensive comparative analysis of AI Search and traditional web search (Google). Throu...

ID: 2509.08919v1 cs.IR, cs.CL, cs.SI

arXiv PDF

📄 Explicit and Implicit Data Augmentation for Social Event Detection

2025-09-06

Авторы:

Congbo Ma, Yuxia Wang, Jia Wu, Jian Yang, Jing Du, Zitai Qiu, Qing Li, Hu Wang, Preslav Nakov

## Контекст Социальное восприятие событий является важной задачей в области обработки естественного языка, которая состоит в идентификации и классификации важных событий из социальных сетей. Этот процесс напрямую зависит от качества меток, но обработка этих меток требует больших усилий и времени. В настоящее время существуют проблемы с доступностью больших объемов меток и их высокой стоимостью. Чтобы решить эти проблемы, развиваются методы автоматического повышения разнообразия данных и улучшения моделей. Одной из таких технологий является Augmentation framework for Social Event Detection (SED-Aug), которая использует текстовые и черновые методы для повышения качества моделей распознавания событий. ## Метод SED-Aug является двухступенчатым фреймворком, объединяющим в себе текстовые и черновые методы. Текстовые методы включают в себя пять различных стратегий повышения диверсии текста с помощью бо LLM. Черновые методы включают в себя пять новых методов, работающих в пространстве входных данных, и генерируют как новые примеры, так и новые фичи. Эти методы работают с использованием структурированных смешанных входных данных. Главный этап SED-Aug заключается в двухэтапной маргинальной оптимизации, где каждый метод предлагает свои варианты, и где выбор самого подходящего метода происходит на основе сравнения с результатов других методов. ## Результаты Для оценки SED-Aug проводились эксперименты на двух датасетах: Twitter2012 и Twitter2018. На Twitter2012 SED-Aug показал увеличение F1-меры на 17.67% в сравнении с лучшим базовым решением. На Twitter2018 увеличение F1-меры составило 15.57%. Эти результаты доказывают, что SED-Aug значительно повышает качество распознавания событий. Модель была оценена на различных классах событий, включая новизну, волатильность и структуру событий. ## Значимость SED-Aug может применяться в различных сферах, таких как мониторинг социальных событий, анализ трендов в социальных сетях, а также в области анализа текстов для детектирования событий. Основные преимущества этой модели заключаются в ее универсальности и высокой точности. Она может использоваться в реальном времени и имеет потенциал для расширения в области машинного обучения и анализа данных. ## Выводы SED-Aug доказала свою эффективность в повышении качества моделей распознавания событий в социальных сетях. Она предлагает новый подход к автоматическому повышению разнообразия данных и годится для использования в реальном времени. Направления будущих исследований могут включать расширение архитектуры для учета новых типов событий, а та

Annotation:

Social event detection involves identifying and categorizing important events from social media, which relies on labeled data, but annotation is costly and labor-intensive. To address this problem, we propose Augmentation framework for Social Event Detection (SED-Aug), a plug-and-play dual augmentation framework, which combines explicit text-based and implicit feature-space augmentation to enhance data diversity and model robustness. The explicit augmentation utilizes large language models to en...

ID: 2509.04202v1 cs.CL, cs.SI

arXiv PDF

📄 LLM-based Contrastive Self-Supervised AMR Learning with Masked Graph Autoencoders for Fake News Detection

2025-08-28

Авторы:

Shubham Gupta, Shraban Kumar Chatterjee, Suman Kundu

#### Контекст М MODERN SOCIETY IS FACED WITH A SIGNIFICANT CHALLENGE DUE TO THE PROLIFERATION OF MISINFORMATION, WHICH COMPLICATES DECISION-MAKING AND UNDERMINES TRUST IN DIGITAL MEDIA. CURRENT APPROACHES TO FAKE NEWS DETECTION OFTEN FACE LIMITATIONS IN CAPTURING LONG-RANGE DEPENDENCIES, COMPLEX SEMANTIC RELATIONS, AND SOCIAL DYNAMICS THAT INFLUENCE THE DISSEMINATION OF NEWS. MOREOVER, THESE APPROACHES TYPICALLY REQUIRE EXTENSIVE LABELED DATASETS, WHICH MAKES THEIR DEPLOYMENT COSTLY AND RESOURCE-INTENSIVE. TO ADDRESS THESE CHALLENGES, THIS STUDY PROPOSES A NOVEL SELF-SUPERVISED FRAMEWORK FOR FAKE NEWS DETECTION THAT INTEGRATES COMPLEX SEMANTIC RELATIONS USING ABSTRACT MEANING REPRESENTATION (AMR) AND NEWS PROPAGATION DYNAMICS. THIS APPROACH AIMS TO OVERCOME THE SHORTCOMINGS OF EXISTING METHODOLOGIES BY HARNESSING THE POWER OF LARGE LANGUAGE MODELS (LLMS) AND ADVANCED GRAPH-BASED TECHNIQUES. #### Метод THE PROPOSED FRAMEWORK RELIES ON A COMBINATION OF ADVANCED NATURAL LANGUAGE PROCESSING (NLP) TECHNIQUES AND GRAPH-BASED LEARNING. THE KEY COMPONENTS INCLUDE: 1. **ABSTRACT MEANING REPRESENTATION (AMR):** THIS REPRESENTATION ENABLES THE CAPTURE OF COMPLEX SEMANTIC RELATIONS WITHIN NEWS TEXTS. BY TRANSFORMING TEXT INTO GRAPH STRUCTURES, IT ALLOWS THE MODEL TO IDENTIFY AND ANALYZE SEMANTIC COMPONENTS MORE EFFECTIVELY. 2. **MASKED GRAPH AUTOENCODERS (MGAE):** THIS TECHNIQUE IS EMPLOYED TO LEARN PROPAGATION FEATURES FROM SOCIAL CONTEXT GRAPHS. BY MASKING CERTAIN NODES AND RECONSTRUCTING THE GRAPH, THE MODEL CAN CAPTURE HIDDEN RELATIONS AND DYNAMICS WITHIN THE SOCIAL CONTEXT. 3. **LLM-BASED GRAPH CONTRASTIVE LOSS (LGCL):** THIS COMPONENT UTILIZES NEGATIVE ANCHOR POINTS GENERATED BY A LARGE LANGUAGE MODEL (LLM) TO ENHANCE THE SEPARABILITY OF FEATURES. THIS APPROACH ENABLES ZERO-SHOT LEARNING, WHERE THE MODEL CAN DISTINGUISH BETWEEN FAKE AND REAL NEWS WITHOUT EXPLICIT LABELS. 4. **MULTI-VIEW GRAPH LEARNING:** BY COMBINING SEMANTIC AND PROPAGATION-BASED FEATURES, THE FRAMEWORK CAN BETTER UNDERSTAND THE UNDERLYING STRUCTURE AND DYNAMICS OF NEWS DISSEMINATION. #### Результаты THE PERFORMANCE OF THE PROPOSED FRAMEWORK WAS EVALUATED USING A VARIETY OF EXPERIMENTS ON BENCHMARK DATASETS. THE MODEL WAS TRAINED AND TESTED USING A COMBINATION OF LABELED AND UNLABELED DATA, DEMONSTRATING ITS ABILITY TO PERFORM WELL IN SELF-SUPERVISED SETTINGS. COMPARISON WITH STATE-OF-THE-ART METHODOLOGIES SHOWED THAT THE PROPOSED APPROACH ACHIEVED SUPERIOR ACCURACY AND GENERALIZABILITY, EVEN WHEN WORKING WITH LIMITED LABELED DATA. SPECIFICALLY, THE INTRODUCTION OF THE LGCL LOSS FUNCTION AND THE MGAE COMPONENT SIGNIFICANTLY ENHANCED THE MODEL'S ABILITY TO CAPTURE COMPLEX SEMANTIC RELATIONS AND SOCIAL CONTEXTS. #### Значимость THE PROPOSED FRAMEWORK HAS WIDE APPLICATIONS IN THE FIELDS OF DIGITAL MEDIA, SOCIAL NETWORK ANALYSIS, AND MISINFORMATION DETECTION. BY INCORPORATING LARGE LANGUAGE MODELS AND ADVANCED GRAPH-BASED LEARNING TECHNIQUES, THE METHODOLOGY PROVIDES A ROBUST AND EFFICIENT SOLUTION FOR IDENTIFYING FAKE NEWS. ITS ABILITY TO OPERATE IN A SELF-SUPERVISED MANNER REDUCES THE NEED FOR EXTENSIVE LABELED DATA, MAKING IT MORE ACCESSIBLE AND COST-EFFECTIVE. FURTHERMORE, THE INTEGRATION OF SOCIAL CONTEXT FEATURES ENHANCES THE MODEL'S ABILITY TO UNDERSTAND THE UNDERLYING DYNAMICS OF NEWS DISSEMINATION, WHICH IS CRUCIAL FOR DETECTING MISINFORMATION. #### Выводы THE STUDY DEMONSTRATES THE EFFECTIVENESS OF THE PROPOSED SELF-SUPERVISED FRAMEWORK IN FAKE NEWS DETECTION. IT ACHIEVES SUPERIOR PERFORMANCE COMPARED TO STATE-OF-THE-ART METHODOLOGIES, EVEN WITH LIMITED LABELED DATA. THE INTEGRATION OF AMR, MGAE, AND LGCL TECHNIQUES PROVIDES A COMPREHENSIVE APPROACH TO CAPTURING COMPLEX SEMANTIC RELATIONS AND SOCIAL DYNAMICS. FUTURE WORK WILL FOCUS ON EXPANDING THE SCOPE OF APPLICATION TO OTHER FORMS OF MISINFORMATION AND IMPROVING THE MODEL'S ABILITY TO HANDLE MULTI-LINGUAL AND CROSS-DOMAIN CHALLENGES.

Annotation:

The proliferation of misinformation in the digital age has led to significant societal challenges. Existing approaches often struggle with capturing long-range dependencies, complex semantic relations, and the social dynamics influencing news dissemination. Furthermore, these methods require extensive labelled datasets, making their deployment resource-intensive. In this study, we propose a novel self-supervised misinformation detection framework that integrates both complex semantic relations u...

ID: 2508.18819v1 cs.CL, cs.SI

arXiv PDF

📄 Affective Polarization across European Parliaments

2025-08-28

Авторы:

Bojan Evkoski, Igor Mozetič, Nikola Ljubešić, Petra Kralj Novak

## Контекст Affective polarization, определяемый как увеличение отрицательных чувств и враждебных отношений между политическими группами, является насущной проблемой в современной политической сфере. Он проявляется в не только международных отношениях, но и внутринациональных спорах, в том числе в работе парламентов. Несмотря на широкое распространение, анализ эффективного влияния этого явления в политических коммуникациях остается недостаточно развитым. Это приводит к необходимости использования автоматизированных методов для изучения эффективной поляризации в разных регионах. Наше исследование сосредоточено на изучении этого явления в шести европейских парламентах. Мы используем естественный язык программирования (NLP) для измерения чувственного подтекста в речи парламентариев, сравнивая отношения к собственной группе и к противоположной. Целью является выявление общих трендов и механизмов, способствующих эффективной поляризации в политических дискуссиях. ## Метод Мы используем автоматизированный подход для изучения affective polarization в парламентах. Наша методология включает следующие этапы: 1. **Сбор данных**. Мы собираем речевые записи из парламентов шести европейских стран, обрабатывая их для достижения готовности к обработке. 2. **Технические решения**. Для измерения подтекстов мы используем модели NLP, которые определяют тональность (положительность/отрицательность) текстов. Мы адаптируем эти модели для определения эмоциональной нагрузки в речи относительно собственных и противоположных групп. 3. **Архитектура измерения**. Мы создаем комплексные метрики для оценки присутствия и интенсивности affective polarization. Эти метрики включают показатели отношений к членам собственной группы и противоположной, а также механизмы, такие как reciprocity. ## Результаты Мы обнаружили, что все шесть парламентов изученных стран показывают присутствие affective polarization. Члены парламентов, которые более активны в дискуссиях, также представляют более высокие уровни поляризации по отношению к противоположным группам. Однако мы не обнаружили статистически значимых различий в поляризации между более и менее активными членами парламента. Наконец, наши результаты показывают, что reciprocity — механизм, где отрицательные отношения к одному члену парламента приводят к отрицательным отношениям к остальным — является существенным фактором в поляризации между членами парламента. ## Значимость Наши результаты имеют значительное значение для понимания и устранения affective polarization в политических дискуссиях. Исследование может быть применено для разработки методов предотвращения и разрешения конфликтов в политических среда

Annotation:

Affective polarization, characterized by increased negativity and hostility towards opposing groups, has become a prominent feature of political discourse worldwide. Our study examines the presence of this type of polarization in a selection of European parliaments in a fully automated manner. Utilizing a comprehensive corpus of parliamentary speeches from the parliaments of six European countries, we employ natural language processing techniques to estimate parliamentarian sentiment. By compari...

ID: 2508.18916v1 cs.CL, cs.SI

arXiv PDF

📄 Enhancing Rumor Detection Methods with Propagation Structure Infused Language Model

2025-08-13

Авторы:

Chaoqun Cui, Siyuan Li, Kunkun Ma, Caiyan Jia

## Контекст Проблема распространения слухов и лживых сообщений в социальных сетях является ключевой задачей модерации содержимого. Известно, что высокоэффективные Предварительно Обученные Языковые Модели (PLMs) обладают выдающимися результатами в различных задачах естественного языкового обработки. Однако их результаты на задачах модерации социальных медиа, таких как детекция слухов, часто остаются ниже ожидаемого уровня. Это может быть обусловлено несоответствием между корпусами предварительного обучения и социальными текстами, недостаточным учетом уникальных социальных символов, а также оптимизацией моделей, которая не достаточно учитывает пользовательские взаимодействия внутри распространения информации. Мотивирует разработку новых подходов повышения точности моделей распространения информации в социальных сетях. ## Метод Предлагается новый подход, названный Post Engagement Prediction (PEP), который включает в себя продолжение предварительного обучения модели с целью моделирования взаимодействий в пользовательской сети и распространения информации. PEP предполагает обучение модели классификации, которая предсказывает связи между постами: корневые, ветвистые и родительские. Эти связи позволяют лучше представить распространение информации в социальных сетях. Для обучения и тестирования PEP, авторы создали новую большую базу данных TwitterCorpus (269 ГБ) и два датасета, Twitter и Weibo, с исходными данными об опросах и распространении сообщений. Модель SoLM, разработанная на основе этого подхода, включает в себя все слои PLM с дополнительным модулем PEP. ## Результаты Различные эксперименты проводились на нескольких датасетах, включая Twitter и Weibo. Эксперименты показали, что PEP повышает точность распространения данных в PLM на 1.0-3.7% в зависимости от датасета и модели. Также было показано, что модель SoLM без дополнительных модулей показала высокую точность, которая не уступает современным методам. На датасетах Twitter и Weibo, SoLM достигла результатов, которые не отстают от текущих лидеров. Это подтверждает эффективность PEP в моделировании частоты и структуры взаимодействий, необходимых для задач детекции лживых сообщений. ## Значимость Решение, представленное в статье, может быть применено в области модерации содержимого в социальных сетях, в том числе для детекции лживых сообщений, нахождения и оценки источников распространения, а также анализа структуры распространения. Особое преимущество PEP заключается в его универсальности. Он может быть применен для улучшения различных PLM в социальных сетях, даже при небольших обучающих выборках. Это может привести к расширению возможно

Annotation:

Pretrained Language Models (PLMs) have excelled in various Natural Language Processing tasks, benefiting from large-scale pretraining and self-attention mechanism's ability to capture long-range dependencies. However, their performance on social media application tasks like rumor detection remains suboptimal. We attribute this to mismatches between pretraining corpora and social texts, inadequate handling of unique social symbols, and pretraining tasks ill-suited for modeling user engagements im...

ID: 2508.07209v1 cs.CL, cs.SI

arXiv PDF

📄 Understanding the Embedding Models on Hyper-relational Knowledge Graph

2025-08-09

Авторы:

Yubo Wang, Shimin Di, Zhili Wang, Haoyang Li, Fei Teng, Hao Xin, Lei Chen

Задача: Развитие и адаптация моделей для гипер-реляционных знаний (Hyper-relational Knowledge Graphs, HKGs), которые расширяют классические Knowledge Graphs (KGs) для подробного представления фактов с дополнительными квалификаторами. Однако неясно, допускаются ли повышенные показатели новых HKGE-моделей благодаря базовой модели KGE или специальным модулям обработки квалификаторов. Предлагаемое решение: Авторы предлагают конвертировать HKGs в формат KGs с помощью трех методов декомпозиции и сравнить показатели классических KGE-моделей с HKGE-моделями. Они также выявили ограничения декомпозиционных подходов и улучшения HKGE-моделей, такие как недостаточность в хранении длинных зависимостей или интеграции простых троек и квалификаторов. Основные выводы: Новые модели, такие как FormerGNN, которая сочетает квалификаторный интегратор и графовый кодировщик на основе GNN, показала значительное улучшение в сравнении с имеющимися решениями. Результаты подтверждают возможность улучшения обработки гипер-реляционных знаний с помощью новых парадигм.

Annotation:

Recently, Hyper-relational Knowledge Graphs (HKGs) have been proposed as an extension of traditional Knowledge Graphs (KGs) to better represent real-world facts with additional qualifiers. As a result, researchers have attempted to adapt classical Knowledge Graph Embedding (KGE) models for HKGs by designing extra qualifier processing modules. However, it remains unclear whether the superior performance of Hyper-relational KGE (HKGE) models arises from their base KGE model or the specially design...

ID: 2508.03280v1 cs.LG, cs.CL, cs.SI

arXiv PDF

📄 Variety Is the Spice of Life: Detecting Misinformation with Dynamic Environmental Representations

2025-08-09

Авторы:

Bing Wang, Ximing Li, Yiming Wang, Changchun Li, Jiaxu Cui, Renchu Guan, Bo Yang

Ускоряющееся распространение лживых сведений в социальных сетях стало серьезной проблемой, вызывающей вредные последствия. Основная проблема существующих методов заключается в использовании статической модели, которая не учитывает динамическую природу социального окружения, в котором меняется статус новостей. Для решения этой проблемы предложено развитие нового подхода, **Misinformation Detection with Dynamic Environmental Representations (MISDER)**. Основной идеей этой модели является создание динамического представления социального окружения и прогнозирование его изменений с помощью темпоральных моделей, таких как LSTM, непрерывные динамические уравнения и предварительно обученные динамические системы. Модель MISDER была сравнена с другими подходами на двух популярных датасетах, и результаты показали высокую эффективность динамического подхода в обнаружении лживых сведений.

Annotation:

The proliferation of misinformation across diverse social media platforms has drawn significant attention from both academic and industrial communities due to its detrimental effects. Accordingly, automatically distinguishing misinformation, dubbed as Misinformation Detection (MD), has become an increasingly active research topic. The mainstream methods formulate MD as a static learning paradigm, which learns the mapping between the content, links, and propagation of news articles and the corres...

ID: 2508.03420v1 cs.CL, cs.SI

arXiv PDF

Показано 11 - 20 из 20 записей