HSFN: Hierarchical Selection for Fake News Detection building Heterogeneous Ensemble
2508.21482v1
cs.CL, cs.AI, cs.LG
2025-09-02
Авторы:
Sara B. Coutinho, Rafael M. O. Cruz, Francimaria R. S. Nascimento, George D. C. Cavalcanti
Резюме на русском
#### Контекст
Fake news, особенно на платформах социальных медиа, становится все более важной проблемой в связи со своим потенциалом для воздействия на общественное мнение, в том числе в сферах опасности, таких как здравоохранение и политика. Человеческие биазы, такие как проверенный биаз (confirmation bias), делают людей уязвимыми к верификации и распространению ложной информации. Машинное обучение используется для автоматизации процессов факт-чеккинга, чтобы сделать их эффективнее. Одним из эффективных подходов являются методы пакетного классификатора (ensemble methods), которые объединяют несколько моделей классификации для улучшения точности и устойчивости результатов. Однако проблема в том, что подобные системы часто страдают от недостатка разнообразия (diversity) между классификаторами, что приводит к повторению шаблонов и ухудшению их общей точности. Наша работа стремится решить эту проблему, создав метод, оптимизирующий разнообразие в ensemble-классификаторах.
#### Метод
В нашей работе предлагается новая методика для выбора классификаторов, основанная на принципе разнообразия (diversity) и производительности (performance). Метод начинает с вычисления парных разнообразий (pairwise diversity) между классификаторами, затем применяет группировку в иерархическом кластеринге (hierarchical clustering) для разделения классификаторов на группы на разных уровнях детализации. Отдельная группа классификаторов, каждая из которых представляет собой максимальное разнообразие внутри группы (intra-pool diversity), выбирается на каждом уровне иерархии. Данный процесс повторяется до тех пор, пока не будет выбрана одна группа классификаторов на всей иерархии. Таким образом, метод формирует пул классификаторов, который обеспечивает максимальное разнообразие. Для того, чтобы гарантировать хорошую общую точность ensemble, к каждому классификатору применяется метрика, отражающая его производительность (performance).
#### Результаты
Мы провести эксперименты с 40 различными классификаторами, работающими на шести разных наборах данных из различных областей применения и с разным количеством классов. Наша методика сравнивалась с двумя основными подходами: геометрическим георгиевым алгоритмом (Elbow heuristic) и современными стандартными методами (state-of-the-art baselines). Результаты показали, что наш подход достиг лучшей точности на двух из шести наборов данных, что демонстрирует его эффективность в создании ensemble-классификаторов с высоким разнообразием и производительностью. Исходный код и подробности имплементации доступны на GitHub: [https://github.com/SaraBCoutinho/HSFN](https://github.com/SaraBCoutinho/HSFN).
#### Значимость
Наш подхо
Abstract
Psychological biases, such as confirmation bias, make individuals
particularly vulnerable to believing and spreading fake news on social media,
leading to significant consequences in domains such as public health and
politics. Machine learning-based fact-checking systems have been widely studied
to mitigate this problem. Among them, ensemble methods are particularly
effective in combining multiple classifiers to improve robustness. However,
their performance heavily depends on the diversity of the constituent
classifiers-selecting genuinely diverse models remains a key challenge,
especially when models tend to learn redundant patterns. In this work, we
propose a novel automatic classifier selection approach that prioritizes
diversity, also extended by performance. The method first computes pairwise
diversity between classifiers and applies hierarchical clustering to organize
them into groups at different levels of granularity. A HierarchySelect then
explores these hierarchical levels to select one pool of classifiers per level,
each representing a distinct intra-pool diversity. The most diverse pool is
identified and selected for ensemble construction from these. The selection
process incorporates an evaluation metric reflecting each classifiers's
performance to ensure the ensemble also generalises well. We conduct
experiments with 40 heterogeneous classifiers across six datasets from
different application domains and with varying numbers of classes. Our method
is compared against the Elbow heuristic and state-of-the-art baselines. Results
show that our approach achieves the highest accuracy on two of six datasets.
The implementation details are available on the project's repository:
https://github.com/SaraBCoutinho/HSFN .
Ссылки и действия
Дополнительные ресурсы: