CNN-ViT Hybrid for Pneumonia Detection: Theory and Empiric on Limited Data without Pretraining

2509.08586v1 eess.IV, cs.CV 2025-09-11

Авторы:

Prashant Singh Basnet, Roshan Chitrakar

Резюме на русском

## Контекст Обнаружение пневмонии является ключевым вопросом в медицинских исследованиях из-за высокой смертности и широкого распространения. Традиционные методы диагностики часто сталкиваются с ограничениями, такими как неточность, долговременный процесс, и необходимость высококвалифицированных специалистов. Нейронные сети, особенно CNN и ViT, доказали свою эффективность в медицинской информатике. Однако, обучение этих моделей требует больших объемов данных и дополнительных ресурсов для предварительного обучения (pretraining). Это ограничивает их применение в ситуациях, где доступ к большим данным ограничен. В этом контексте важно исследовать возможность создания моделей с лучшим балансом между эффективностью и производительностью на ограниченных данных, не используя предварительное обучение. ## Метод Предложенный гибридный подход сочетает архитектуру CNN и ViT, чтобы объединить их отдельные преимущества. CNN известен своей способностью локального извлечения признаков, в то время как ViT эффективен в глобальном контексте. Методология включает проектирование и реализацию гибридной модели, использование адаптивных методов weight initialization и data augmentation для оптимизации обучения на ограниченных данных. Важной особенностью является отсутствие предварительного обучения, чтобы протестировать модель в "чистой" форме. Эксперименты проводились на различных размерах данных с балансировкой и небалансом классов. ## Результаты Исследования проводились с 50%, 25%, и 10% размеров обучающих наборов. Модель гибридного подхода показала высокую точность в обнаружении пневмонии, с максимальной recall-такой 0.9443 при 50% размера данных и стабильным F1-score в пределах 0.85 во всех наборах. Это указывает на надёжность модели в диагностике. Она также показала лучшую производительность по сравнению с CNN и ViT в условиях небалансированных наборов данных. Несмотря на сложность архитектуры, модель требовала почти одинакового времени обучения по сравнению с трансформерами. ## Значимость Предложенная модель имеет значительное потенциальное применение в разработке систем автоматизированной диагностики. Она может быть применена в районах с ограниченным доступом к данным, где предварительно обученные модели недоступны. Её преимущество в том, что она достигает высокой производительности без задействования дополнительных ресурсов. Это может способствовать улучшению доступа к медицинским услугам и повышению точности диагностики в районах с недостатком квалифицированных специалистов. ## Выводы В данном исследовании был предложен и экспериментально протестирован гибридный подход

Abstract

This research explored the hybridization of CNN and ViT within a training dataset of limited size, and introduced a distinct class imbalance. The training was made from scratch with a mere focus on theoretically and experimentally exploring the architectural strengths of the proposed hybrid model. Experiments were conducted across varied data fractions with balanced and imbalanced training datasets. Comparatively, the hybrid model, complementing the strengths of CNN and ViT, achieved the highest recall of 0.9443 (50% data fraction in balanced) and consistency in F1 score around 0.85, suggesting reliability in diagnosis. Additionally, the model was successful in outperforming CNN and ViT in imbalanced datasets. Despite its complex architecture, it required comparable training time to the transformers in all data fractions.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CNN-ViT Hybrid for Pneumonia Detection: Theory and Empiric on Limited Data without Pretraining

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Disentangling Progress in Medical Image Registration: Beyond Trend-Driven Archit...

ColonAdapter: Geometry Estimation Through Foundation Model Adaptation for Colono...

Content Adaptive Encoding For Interactive Game Streaming

Hard Spatial Gating for Precision-Driven Brain Metastasis Segmentation: Addressi...

Comparing SAM 2 and SAM 3 for Zero-Shot Segmentation of 3D Medical Data

Навигация