Advanced Multi-Architecture Deep Learning Framework for BIRADS-Based Mammographic Image Retrieval: Comprehensive Performance Analysis with Super-Ensemble Optimization

2508.04790v1 eess.IV, cs.CV, cs.LG 2025-08-09
Авторы:

MD Shaikh Rahman, Feiroz Humayara, Syed Maudud E Rabbi, Muhammad Mahbubur Rashid

Резюме на русском

**Резюме** В статье предлагается расширенная разработка системы контент-базированного поиска маммографических изображений, ориентированной на точный классификационный матчинг по системе BIRADS, включающей пять классов. Это решение призвано устранить существующие ограничения в текущих исследованиях, такие как недостаточные размеры выборок, неподходящие схемы разбиения данных и недостаточное статистическое взаимосвязи, которые мешают клиническому применению. Разработанная фреймворк включает стратифицированное разбиение данных (50%/20%/30% для обучения, валидации и тестирования), регрессионные тесты с помощью штрих-кода, и 602 запросов для поиска. Использованы такие CNN-архитектуры, как DenseNet121, ResNet50 и VGG16, с развитыми тренировочными стратегиями, включая пунктуальное увеличение уровня точности, метрическое обучение и свертки в супер-конфигурации. Наиболее выдающимся результатом явился супер-конфигурация, которая достигла 36.33% precision@10 (95% CI: [34.78%, 37.88%]), что превосходит реалистические ожидания для 5-классового поиска BIRADS. Доказано, что этот подход представляет более эффективные архитектуры для клинического применения в диагностике и качественном контроле.

Abstract

Content-based mammographic image retrieval systems require exact BIRADS categorical matching across five distinct classes, presenting significantly greater complexity than binary classification tasks commonly addressed in literature. Current medical image retrieval studies suffer from methodological limitations including inadequate sample sizes, improper data splitting, and insufficient statistical validation that hinder clinical translation. We developed a comprehensive evaluation framework systematically comparing CNN architectures (DenseNet121, ResNet50, VGG16) with advanced training strategies including sophisticated fine-tuning, metric learning, and super-ensemble optimization. Our evaluation employed rigorous stratified data splitting (50%/20%/30% train/validation/test), 602 test queries, and systematic validation using bootstrap confidence intervals with 1,000 samples. Advanced fine-tuning with differential learning rates achieved substantial improvements: DenseNet121 (34.79% precision@10, 19.64% improvement) and ResNet50 (34.54%, 19.58% improvement). Super-ensemble optimization combining complementary architectures achieved 36.33% precision@10 (95% CI: [34.78%, 37.88%]), representing 24.93% improvement over baseline and providing 3.6 relevant cases per query. Statistical analysis revealed significant performance differences between optimization strategies (p<0.001) with large effect sizes (Cohen's d>0.8), while maintaining practical search efficiency (2.8milliseconds). Performance significantly exceeds realistic expectations for 5-class medical retrieval tasks, where literature suggests 20-25% precision@10 represents achievable performance for exact BIRADS matching. Our framework establishes new performance benchmarks while providing evidence-based architecture selection guidelines for clinical deployment in diagnostic support and quality assurance applications.

Ссылки и действия