CNN-ViT Hybrid for Pneumonia Detection: Theory and Empiric on Limited Data without Pretraining
2509.08586v1
eess.IV, cs.CV
2025-09-11
Авторы:
Prashant Singh Basnet, Roshan Chitrakar
Резюме на русском
## Контекст
Обнаружение пневмонии является ключевым вопросом в медицинских исследованиях из-за высокой смертности и широкого распространения. Традиционные методы диагностики часто сталкиваются с ограничениями, такими как неточность, долговременный процесс, и необходимость высококвалифицированных специалистов. Нейронные сети, особенно CNN и ViT, доказали свою эффективность в медицинской информатике. Однако, обучение этих моделей требует больших объемов данных и дополнительных ресурсов для предварительного обучения (pretraining). Это ограничивает их применение в ситуациях, где доступ к большим данным ограничен. В этом контексте важно исследовать возможность создания моделей с лучшим балансом между эффективностью и производительностью на ограниченных данных, не используя предварительное обучение.
## Метод
Предложенный гибридный подход сочетает архитектуру CNN и ViT, чтобы объединить их отдельные преимущества. CNN известен своей способностью локального извлечения признаков, в то время как ViT эффективен в глобальном контексте. Методология включает проектирование и реализацию гибридной модели, использование адаптивных методов weight initialization и data augmentation для оптимизации обучения на ограниченных данных. Важной особенностью является отсутствие предварительного обучения, чтобы протестировать модель в "чистой" форме. Эксперименты проводились на различных размерах данных с балансировкой и небалансом классов.
## Результаты
Исследования проводились с 50%, 25%, и 10% размеров обучающих наборов. Модель гибридного подхода показала высокую точность в обнаружении пневмонии, с максимальной recall-такой 0.9443 при 50% размера данных и стабильным F1-score в пределах 0.85 во всех наборах. Это указывает на надёжность модели в диагностике. Она также показала лучшую производительность по сравнению с CNN и ViT в условиях небалансированных наборов данных. Несмотря на сложность архитектуры, модель требовала почти одинакового времени обучения по сравнению с трансформерами.
## Значимость
Предложенная модель имеет значительное потенциальное применение в разработке систем автоматизированной диагностики. Она может быть применена в районах с ограниченным доступом к данным, где предварительно обученные модели недоступны. Её преимущество в том, что она достигает высокой производительности без задействования дополнительных ресурсов. Это может способствовать улучшению доступа к медицинским услугам и повышению точности диагностики в районах с недостатком квалифицированных специалистов.
## Выводы
В данном исследовании был предложен и экспериментально протестирован гибридный подход
Abstract
This research explored the hybridization of CNN and ViT within a training
dataset of limited size, and introduced a distinct class imbalance. The
training was made from scratch with a mere focus on theoretically and
experimentally exploring the architectural strengths of the proposed hybrid
model. Experiments were conducted across varied data fractions with balanced
and imbalanced training datasets. Comparatively, the hybrid model,
complementing the strengths of CNN and ViT, achieved the highest recall of
0.9443 (50% data fraction in balanced) and consistency in F1 score around 0.85,
suggesting reliability in diagnosis. Additionally, the model was successful in
outperforming CNN and ViT in imbalanced datasets. Despite its complex
architecture, it required comparable training time to the transformers in all
data fractions.
Ссылки и действия
Дополнительные ресурсы: