Ensemble Learning for Healthcare: A Comparative Analysis of Hybrid Voting and Ensemble Stacking in Obesity Risk Prediction

2509.02826v1 cs.LG, cs.AI, stat.AP, stat.CO 2025-09-05

Авторы:

Towhidul Islam, Md Sumon Ali

Резюме на русском

#### Контекст Ожирение является критическим мировым здравоохранным проблемой, вызванным разными факторами, включая диету, физиологию и окружающую среду. Это сильно связано с такими хроническими заболеваниями, как диабет, сердечно-сосудистые расстройства и рак. Машинное обучение предлагает перспективные возможности для раннего прогнозирования риска ожирения, но оценка различных методов машинного обучения в этой области остается недостаточной. Особенно недостаточно понятны преимущества гибридных методов голосования и стекирования, которые могут значительно улучшить достоверность и эффективность прогнозирования. #### Метод Для сравнительного анализа использовались два датасета, каждый из которых был обработан с целью обеспечения баланса и идентификации выбросов. Три метода машинного обучения — **Majority Hard Voting**, **Weighted Hard Voting** и **Stacking** с мета-классификатором Multi-Layer Perceptron — были протестированы на комбинации 9 машинных обучаемых моделей (таких как Логистическая регрессия, Дерево решений, Случайный лес), протестированных на 50 конфигураций гиперпараметров. Данные были предварительно обработаны для гарантии качества и соответствия моделям. #### Результаты На Dataset-1 оба гибридных метода — Weighted Hard Voting и Stacking — показали почти одинаковую эффективность, превосходя Majority Hard Voting. Stacking достигло Accuracy 0.920304 и F1-Score 0.920070, тогда как Majority Hard Voting показал Accuracy 0.914160 и F1-Score 0.914115. На Dataset-2 Stacking показал существенное преимущество, достигнув Accuracy 0.989837 и F1-Score 0.989825. Weighted Hard Voting достиг Accuracy 0.981707 и F1-Score 0.981675, тогда как Majority Hard Voting показал Accuracy 0.981707 и F1-Score 0.981675. #### Значимость Нахождение лучшего подхода к прогнозированию риска ожирения имеет критическое значение для раннего выявления и профилактики хронических заболеваний. Это исследование подтверждает, что Stacking является эффективнее для комплексных данных, в то время как Majority Hard Voting может служить достаточной альтернативой для простых случаев. Эти находки могут помочь в выборе наиболее подходящего метода для различных задач в здравоохранении. #### Выводы Гибридные методы голосования и стекирования демонстрируют свою эффективность в прогнозировании риска ожирения. Stacking доказал свою превосходность в сложных случаях, в то время как Majority Hard Voting может быть оптимальным для простых задач. Будущие исследования должны ориентироваться на уточнение гибридных моделей и их применение к более широкому спектру здравоохранения.

Abstract

Obesity is a critical global health issue driven by dietary, physiological, and environmental factors, and is strongly associated with chronic diseases such as diabetes, cardiovascular disorders, and cancer. Machine learning has emerged as a promising approach for early obesity risk prediction, yet a comparative evaluation of ensemble techniques -- particularly hybrid majority voting and ensemble stacking -- remains limited. This study aims to compare hybrid majority voting and ensemble stacking methods for obesity risk prediction, identifying which approach delivers higher accuracy and efficiency. The analysis seeks to highlight the complementary strengths of these ensemble techniques in guiding better predictive model selection for healthcare applications. Two datasets were utilized to evaluate three ensemble models: Majority Hard Voting, Weighted Hard Voting, and Stacking (with a Multi-Layer Perceptron as meta-classifier). A pool of nine Machine Learning (ML) algorithms, evaluated across a total of 50 hyperparameter configurations, was analyzed to identify the top three models to serve as base learners for the ensemble methods. Preprocessing steps involved dataset balancing, and outlier detection, and model performance was evaluated using Accuracy and F1-Score. On Dataset-1, weighted hard voting and stacking achieved nearly identical performance (Accuracy: 0.920304, F1: 0.920070), outperforming majority hard voting. On Dataset-2, stacking demonstrated superior results (Accuracy: 0.989837, F1: 0.989825) compared to majority hard voting (Accuracy: 0.981707, F1: 0.981675) and weighted hard voting, which showed the lowest performance. The findings confirm that ensemble stacking provides stronger predictive capability, particularly for complex data distributions, while hybrid majority voting remains a robust alternative.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация