HSFN: Hierarchical Selection for Fake News Detection building Heterogeneous Ensemble

2508.21482v1 cs.CL, cs.AI, cs.LG 2025-09-02
Авторы:

Sara B. Coutinho, Rafael M. O. Cruz, Francimaria R. S. Nascimento, George D. C. Cavalcanti

Резюме на русском

#### Контекст Fake news, особенно на платформах социальных медиа, становится все более важной проблемой в связи со своим потенциалом для воздействия на общественное мнение, в том числе в сферах опасности, таких как здравоохранение и политика. Человеческие биазы, такие как проверенный биаз (confirmation bias), делают людей уязвимыми к верификации и распространению ложной информации. Машинное обучение используется для автоматизации процессов факт-чеккинга, чтобы сделать их эффективнее. Одним из эффективных подходов являются методы пакетного классификатора (ensemble methods), которые объединяют несколько моделей классификации для улучшения точности и устойчивости результатов. Однако проблема в том, что подобные системы часто страдают от недостатка разнообразия (diversity) между классификаторами, что приводит к повторению шаблонов и ухудшению их общей точности. Наша работа стремится решить эту проблему, создав метод, оптимизирующий разнообразие в ensemble-классификаторах. #### Метод В нашей работе предлагается новая методика для выбора классификаторов, основанная на принципе разнообразия (diversity) и производительности (performance). Метод начинает с вычисления парных разнообразий (pairwise diversity) между классификаторами, затем применяет группировку в иерархическом кластеринге (hierarchical clustering) для разделения классификаторов на группы на разных уровнях детализации. Отдельная группа классификаторов, каждая из которых представляет собой максимальное разнообразие внутри группы (intra-pool diversity), выбирается на каждом уровне иерархии. Данный процесс повторяется до тех пор, пока не будет выбрана одна группа классификаторов на всей иерархии. Таким образом, метод формирует пул классификаторов, который обеспечивает максимальное разнообразие. Для того, чтобы гарантировать хорошую общую точность ensemble, к каждому классификатору применяется метрика, отражающая его производительность (performance). #### Результаты Мы провести эксперименты с 40 различными классификаторами, работающими на шести разных наборах данных из различных областей применения и с разным количеством классов. Наша методика сравнивалась с двумя основными подходами: геометрическим георгиевым алгоритмом (Elbow heuristic) и современными стандартными методами (state-of-the-art baselines). Результаты показали, что наш подход достиг лучшей точности на двух из шести наборов данных, что демонстрирует его эффективность в создании ensemble-классификаторов с высоким разнообразием и производительностью. Исходный код и подробности имплементации доступны на GitHub: [https://github.com/SaraBCoutinho/HSFN](https://github.com/SaraBCoutinho/HSFN). #### Значимость Наш подхо

Abstract

Psychological biases, such as confirmation bias, make individuals particularly vulnerable to believing and spreading fake news on social media, leading to significant consequences in domains such as public health and politics. Machine learning-based fact-checking systems have been widely studied to mitigate this problem. Among them, ensemble methods are particularly effective in combining multiple classifiers to improve robustness. However, their performance heavily depends on the diversity of the constituent classifiers-selecting genuinely diverse models remains a key challenge, especially when models tend to learn redundant patterns. In this work, we propose a novel automatic classifier selection approach that prioritizes diversity, also extended by performance. The method first computes pairwise diversity between classifiers and applies hierarchical clustering to organize them into groups at different levels of granularity. A HierarchySelect then explores these hierarchical levels to select one pool of classifiers per level, each representing a distinct intra-pool diversity. The most diverse pool is identified and selected for ensemble construction from these. The selection process incorporates an evaluation metric reflecting each classifiers's performance to ensure the ensemble also generalises well. We conduct experiments with 40 heterogeneous classifiers across six datasets from different application domains and with varying numbers of classes. Our method is compared against the Elbow heuristic and state-of-the-art baselines. Results show that our approach achieves the highest accuracy on two of six datasets. The implementation details are available on the project's repository: https://github.com/SaraBCoutinho/HSFN .

Ссылки и действия