The Missing Piece: A Case for Pre-Training in 3D Medical Object Detection
2509.15947v1
eess.IV, cs.CV, cs.LG
2025-09-23
Авторы:
Katharina Eckstein, Constantin Ulrich, Michael Baumgartner, Jessica Kächele, Dimitrios Bounias, Tassilo Wald, Ralf Floca, Klaus H. Maier-Hein
Резюме на русском
## Контекст
3D медицинская объектная детекция является ключевым компонентом точного компьютерно-помогаемого диагностирования. Однако полноценное использование 3D-информации в обучении моделей остается недостаточно исследовано. Использование 2D медицинских данных или изображений натуры в качестве примеров предварительного обучения не позволяет достичь полного потенциала 3D-технологий. Это вызывает проблемы в получении точных и универсальных моделей для детекции 3D-объектов в медицине. Наша мотивация заключается в изучении методов предварительного обучения, которые могут способствовать улучшению точности 3D-детекторов.
## Метод
Мы используем предварительно обученные сети, ориентированные на задачу 3D-детекции, для сравнения различных методов предварительного обучения. Методы включают в себя изображения натуры, 2D медицинские изображения и 3D-реконструкцию. Работа охватывает архитектуры на основе сверток (CNNs) и трансформеров (Transformers). Данные для обучения были получены из различных больших медицинских баз данных. Наша методология включает эксперименты с различными типами 3D-детекторов, чтобы оценить эффективность каждого метода предварительного обучения.
## Результаты
Мы провели эксперименты с несколькими детекторами и датасетом, такими как LIDC-IDRI и 3D-CT-сканирования. Результаты показали, что предварительное обучение на 3D-реконструкции показало самые высокие результаты, превосходя обучение на изображениях натуры и 2D медицинских данных. Также мы обнаружили, что трансформеры показали более высокую универсальность по сравнению с CNN-архитектурами. Однако предварительное обучение на основе контрастирования не дало существенных выигрышей. Эти находки подтверждают, что предварительное 3D-обучение может улучшить точность детекции в различных сценариях клинического применения.
## Значимость
Наши результаты имеют решающее значение для медицинских областей, где точность детекции 3D-объектов критична, таких как диагностика рака и оперативная планировка. Использование предварительного обучения позволяет значительно сократить время обучения и улучшить точность детекторов. Кроме того, наш подход может быть применен к разным архитектурам, включая трансформеры, что делает его универсальным и применимым в различных медицинских задачах.
## Выводы
Мы установили, что предварительное обучение на 3D-реконструкции является наиболее эффективным методом для улучшения 3D-детекторов. Данные находки открывают путь к будущим исследованиям в области предварительного обучения для 3D-меди
Abstract
Large-scale pre-training holds the promise to advance 3D medical object
detection, a crucial component of accurate computer-aided diagnosis. Yet, it
remains underexplored compared to segmentation, where pre-training has already
demonstrated significant benefits. Existing pre-training approaches for 3D
object detection rely on 2D medical data or natural image pre-training, failing
to fully leverage 3D volumetric information. In this work, we present the first
systematic study of how existing pre-training methods can be integrated into
state-of-the-art detection architectures, covering both CNNs and Transformers.
Our results show that pre-training consistently improves detection performance
across various tasks and datasets. Notably, reconstruction-based
self-supervised pre-training outperforms supervised pre-training, while
contrastive pre-training provides no clear benefit for 3D medical object
detection. Our code is publicly available at:
https://github.com/MIC-DKFZ/nnDetection-finetuning.
Ссылки и действия
Дополнительные ресурсы: