NeeCo: Image Synthesis of Novel Instrument States Based on Dynamic and Deformable 3D Gaussian Reconstruction

2508.07897v1 cs.CV, cs.AI, I.3.3 2025-08-13
Авторы:

Tianle Zeng, Junlei Hu, Gerardo Loza Galindo, Sharib Ali, Duygu Sarikaya, Pietro Valdastri, Dominic Jones

Резюме на русском

#### Контекст Компьютерное зрение широко применяется в сургерической автоматизации для улучшения систем трекинга инструментов, детекции и локализации. Однако текущие приемки семантической аналитики, основанные на данных, требуют больших, высококачественных и методично отмеченных изображений, что ограничивает их применение в сургерской науке. Наша работа ставит целью решение проблемы нехватки данных в области сургерии, используя динамическую технологию Гауссовского рендеринга. Мы предлагаем модель динамических Гауссовских моделей для представления динамических сургерических сцен, что позволяет рендерить инструменты хирургических операций из невиденных точек зрения и с деформациями в реальных тканевых фонах. #### Метод Мы предложили новый динамический Гауссовский моделирований, отражающий характеристики деформаций и динамических сцен сургерии. Модель использует техники рендеринга Гауссовского шума для создания реалистичных изображений инструментов в движении и с деформациями. Мы также применяем динамическую стратегию обучения для адаптации к камерам с некорректными позициями из реальных условий. Для автоматического генерирования аннотаций в синтетических данных мы предлагаем метод, основанный на динамических Гауссовых моделях. Это подход позволяет создать высококачественные датасеты для обучения моделей. #### Результаты Мы строили новый датасет, содержащий 14,000 кадров инструментов и камеры в сценах с подкорпусным свином. Мы сравнили синтетические изображения, сгенерированные нашей моделью, с изображениями, полученными стандартным методом данных. Результаты показали, что наш метод выдает изображения с реалистичным качеством, с оценкой Peak-Signal-to-Noise Ratio (PSNR) в 29.87. Мы также утвердили, что нейронные сети, обученные на синтетических данных, показали лучшую производительность по сравнению с моделями, обученными на данных стандартных методов. #### Значимость Наша технология может быть применена в сургерической науке для обучения моделей сургерических инструментов. У нее есть преимущества, такие как увеличение качества тренировочных данных, снижение необходимости в больших датасетах и более высокая точность. Мы применили нашу технологию к различным сценам и демонстрируем, что она может быть применена в различных сургерических операциях, чтобы повысить качество обучения и анализа данных. #### Выводы Мы достигли существенных улучшений в качестве синтетических изображений в сургерии. Наш метод может быть использован для аддитивного обучения систем, чтобы повысить точность в с

Abstract

Computer vision-based technologies significantly enhance surgical automation by advancing tool tracking, detection, and localization. However, Current data-driven approaches are data-voracious, requiring large, high-quality labeled image datasets, which limits their application in surgical data science. Our Work introduces a novel dynamic Gaussian Splatting technique to address the data scarcity in surgical image datasets. We propose a dynamic Gaussian model to represent dynamic surgical scenes, enabling the rendering of surgical instruments from unseen viewpoints and deformations with real tissue backgrounds. We utilize a dynamic training adjustment strategy to address challenges posed by poorly calibrated camera poses from real-world scenarios. Additionally, we propose a method based on dynamic Gaussians for automatically generating annotations for our synthetic data. For evaluation, we constructed a new dataset featuring seven scenes with 14,000 frames of tool and camera motion and tool jaw articulation, with a background of an ex-vivo porcine model. Using this dataset, we synthetically replicate the scene deformation from the ground truth data, allowing direct comparisons of synthetic image quality. Experimental results illustrate that our method generates photo-realistic labeled image datasets with the highest values in Peak-Signal-to-Noise Ratio (29.87). We further evaluate the performance of medical-specific neural networks trained on real and synthetic images using an unseen real-world image dataset. Our results show that the performance of models trained on synthetic images generated by the proposed method outperforms those trained with state-of-the-art standard data augmentation by 10%, leading to an overall improvement in model performances by nearly 15%.

Ссылки и действия