Advanced Multi-Architecture Deep Learning Framework for BIRADS-Based Mammographic Image Retrieval: Comprehensive Performance Analysis with Super-Ensemble Optimization
2508.04790v1
eess.IV, cs.CV, cs.LG
2025-08-09
Авторы:
MD Shaikh Rahman, Feiroz Humayara, Syed Maudud E Rabbi, Muhammad Mahbubur Rashid
Резюме на русском
**Резюме**
В статье предлагается расширенная разработка системы контент-базированного поиска маммографических изображений, ориентированной на точный классификационный матчинг по системе BIRADS, включающей пять классов. Это решение призвано устранить существующие ограничения в текущих исследованиях, такие как недостаточные размеры выборок, неподходящие схемы разбиения данных и недостаточное статистическое взаимосвязи, которые мешают клиническому применению. Разработанная фреймворк включает стратифицированное разбиение данных (50%/20%/30% для обучения, валидации и тестирования), регрессионные тесты с помощью штрих-кода, и 602 запросов для поиска. Использованы такие CNN-архитектуры, как DenseNet121, ResNet50 и VGG16, с развитыми тренировочными стратегиями, включая пунктуальное увеличение уровня точности, метрическое обучение и свертки в супер-конфигурации. Наиболее выдающимся результатом явился супер-конфигурация, которая достигла 36.33% precision@10 (95% CI: [34.78%, 37.88%]), что превосходит реалистические ожидания для 5-классового поиска BIRADS. Доказано, что этот подход представляет более эффективные архитектуры для клинического применения в диагностике и качественном контроле.
Abstract
Content-based mammographic image retrieval systems require exact BIRADS
categorical matching across five distinct classes, presenting significantly
greater complexity than binary classification tasks commonly addressed in
literature. Current medical image retrieval studies suffer from methodological
limitations including inadequate sample sizes, improper data splitting, and
insufficient statistical validation that hinder clinical translation. We
developed a comprehensive evaluation framework systematically comparing CNN
architectures (DenseNet121, ResNet50, VGG16) with advanced training strategies
including sophisticated fine-tuning, metric learning, and super-ensemble
optimization. Our evaluation employed rigorous stratified data splitting
(50%/20%/30% train/validation/test), 602 test queries, and systematic
validation using bootstrap confidence intervals with 1,000 samples. Advanced
fine-tuning with differential learning rates achieved substantial improvements:
DenseNet121 (34.79% precision@10, 19.64% improvement) and ResNet50 (34.54%,
19.58% improvement). Super-ensemble optimization combining complementary
architectures achieved 36.33% precision@10 (95% CI: [34.78%, 37.88%]),
representing 24.93% improvement over baseline and providing 3.6 relevant cases
per query. Statistical analysis revealed significant performance differences
between optimization strategies (p<0.001) with large effect sizes (Cohen's
d>0.8), while maintaining practical search efficiency (2.8milliseconds).
Performance significantly exceeds realistic expectations for 5-class medical
retrieval tasks, where literature suggests 20-25% precision@10 represents
achievable performance for exact BIRADS matching. Our framework establishes new
performance benchmarks while providing evidence-based architecture selection
guidelines for clinical deployment in diagnostic support and quality assurance
applications.
Ссылки и действия
Дополнительные ресурсы: