The Missing Piece: A Case for Pre-Training in 3D Medical Object Detection

2509.15947v1 eess.IV, cs.CV, cs.LG 2025-09-23
Авторы:

Katharina Eckstein, Constantin Ulrich, Michael Baumgartner, Jessica Kächele, Dimitrios Bounias, Tassilo Wald, Ralf Floca, Klaus H. Maier-Hein

Резюме на русском

## Контекст 3D медицинская объектная детекция является ключевым компонентом точного компьютерно-помогаемого диагностирования. Однако полноценное использование 3D-информации в обучении моделей остается недостаточно исследовано. Использование 2D медицинских данных или изображений натуры в качестве примеров предварительного обучения не позволяет достичь полного потенциала 3D-технологий. Это вызывает проблемы в получении точных и универсальных моделей для детекции 3D-объектов в медицине. Наша мотивация заключается в изучении методов предварительного обучения, которые могут способствовать улучшению точности 3D-детекторов. ## Метод Мы используем предварительно обученные сети, ориентированные на задачу 3D-детекции, для сравнения различных методов предварительного обучения. Методы включают в себя изображения натуры, 2D медицинские изображения и 3D-реконструкцию. Работа охватывает архитектуры на основе сверток (CNNs) и трансформеров (Transformers). Данные для обучения были получены из различных больших медицинских баз данных. Наша методология включает эксперименты с различными типами 3D-детекторов, чтобы оценить эффективность каждого метода предварительного обучения. ## Результаты Мы провели эксперименты с несколькими детекторами и датасетом, такими как LIDC-IDRI и 3D-CT-сканирования. Результаты показали, что предварительное обучение на 3D-реконструкции показало самые высокие результаты, превосходя обучение на изображениях натуры и 2D медицинских данных. Также мы обнаружили, что трансформеры показали более высокую универсальность по сравнению с CNN-архитектурами. Однако предварительное обучение на основе контрастирования не дало существенных выигрышей. Эти находки подтверждают, что предварительное 3D-обучение может улучшить точность детекции в различных сценариях клинического применения. ## Значимость Наши результаты имеют решающее значение для медицинских областей, где точность детекции 3D-объектов критична, таких как диагностика рака и оперативная планировка. Использование предварительного обучения позволяет значительно сократить время обучения и улучшить точность детекторов. Кроме того, наш подход может быть применен к разным архитектурам, включая трансформеры, что делает его универсальным и применимым в различных медицинских задачах. ## Выводы Мы установили, что предварительное обучение на 3D-реконструкции является наиболее эффективным методом для улучшения 3D-детекторов. Данные находки открывают путь к будущим исследованиям в области предварительного обучения для 3D-меди

Abstract

Large-scale pre-training holds the promise to advance 3D medical object detection, a crucial component of accurate computer-aided diagnosis. Yet, it remains underexplored compared to segmentation, where pre-training has already demonstrated significant benefits. Existing pre-training approaches for 3D object detection rely on 2D medical data or natural image pre-training, failing to fully leverage 3D volumetric information. In this work, we present the first systematic study of how existing pre-training methods can be integrated into state-of-the-art detection architectures, covering both CNNs and Transformers. Our results show that pre-training consistently improves detection performance across various tasks and datasets. Notably, reconstruction-based self-supervised pre-training outperforms supervised pre-training, while contrastive pre-training provides no clear benefit for 3D medical object detection. Our code is publicly available at: https://github.com/MIC-DKFZ/nnDetection-finetuning.

Ссылки и действия