An Ensemble Classification Approach in A Multi-Layered Large Language Model Framework for Disease Prediction
2509.02446v1
cs.CL, cs.LG
2025-09-05
Авторы:
Ali Hamdi, Malak Mohamed, Rokaia Emad, Khaled Shaban
Резюме на русском
## Контекст
В последние годы здравоохранение стало востребованным дисциплинарным полем, в котором технологии и инновации приобретают все более важное значение. Одной из наиболее заметных тенденций является использование социальных телездоровья (social telehealth), который позволяет пациентам отправлять симптомы и получать консультации у врачей удаленно. В связи с этим, большие объемы медицинских данных, создаваемых пользователями на социальных сетях и онлайн-платформах, становятся ресурсом для классификации заболеваний. Большие языковые модели (LLMs), такие как LLAMA3 и GPT-3.5, а также трансформер-ориентированные модели, такие как BERT, продемонстрировали свою эффективность в обработке сложных медицинских текстов. Тем не менее, необходимость улучшения точности и универсальности классификации заболеваний в социальном телездоровье остается актуальной. Данное исследование направлено на изучение возможностей использования LLMs в сочетании с техническими препроцессинговыми методами для повышения точности классификации в социальных телездоровьях.
## Метод
В данном исследовании применяется комбинация методов препроцессинга текстов, включая суммаризацию, рефининг и Named Entity Recognition (NER), над социальными медицинскими текстами на арабском языке. Для обработки используются модели AraBERT, CAMeLBERT и AsafayaBERT, которые были предварительно обучены на арабских данных. Для повышения точности и устойчивости результатов в качестве метода классификации применяется ensemble learning с majority voting. Это позволяет объединить представления текста, полученные от оригинального и препроцессированного текста, и получить более точные прогнозы. Методы препроцессинга и классификации были применены к данным, полученным с заболеваний и симптомами, чтобы исследовать, как эти технологии могут быть использованы для улучшения классификации заболеваний в социальных телездоровьях.
## Результаты
Исследование включало в себя эксперименты с несколькими вариантами представления текста, включая оригинальную форму, суммаризованные версии и NER-преобразованные тексты. Модели AraBERT, CAMeLBERT и AsafayaBERT были применены к сгенерированным представлениям, а затем результаты объединялись с помощью ensemble learning. Точность классификации, достигнутая этой комбинацией, составила 80,56%, что показывает эффективность комбинированного подхода. Эксперименты показали, что препроцессинг и ensemble learning способствуют улучшению точности и общей понимаемости медицинских текстов, что является ключевым результатом данного исследования.
## Значимость
Данный подход имеет значительное значение для развития социальных те
Abstract
Social telehealth has made remarkable progress in healthcare by allowing
patients to post symptoms and participate in medical consultations remotely.
Users frequently post symptoms on social media and online health platforms,
creating a huge repository of medical data that can be leveraged for disease
classification. Large language models (LLMs) such as LLAMA3 and GPT-3.5, along
with transformer-based models like BERT, have demonstrated strong capabilities
in processing complex medical text. In this study, we evaluate three Arabic
medical text preprocessing methods such as summarization, refinement, and Named
Entity Recognition (NER) before applying fine-tuned Arabic transformer models
(CAMeLBERT, AraBERT, and AsafayaBERT). To enhance robustness, we adopt a
majority voting ensemble that combines predictions from original and
preprocessed text representations. This approach achieved the best
classification accuracy of 80.56%, thus showing its effectiveness in leveraging
various text representations and model predictions to improve the understanding
of medical texts. To the best of our knowledge, this is the first work that
integrates LLM-based preprocessing with fine-tuned Arabic transformer models
and ensemble learning for disease classification in Arabic social telehealth
data.
Ссылки и действия
Дополнительные ресурсы: