NeeCo: Image Synthesis of Novel Instrument States Based on Dynamic and Deformable 3D Gaussian Reconstruction
2508.07897v1
cs.CV, cs.AI, I.3.3
2025-08-13
Авторы:
Tianle Zeng, Junlei Hu, Gerardo Loza Galindo, Sharib Ali, Duygu Sarikaya, Pietro Valdastri, Dominic Jones
Резюме на русском
#### Контекст
Компьютерное зрение широко применяется в сургерической автоматизации для улучшения систем трекинга инструментов, детекции и локализации. Однако текущие приемки семантической аналитики, основанные на данных, требуют больших, высококачественных и методично отмеченных изображений, что ограничивает их применение в сургерской науке. Наша работа ставит целью решение проблемы нехватки данных в области сургерии, используя динамическую технологию Гауссовского рендеринга. Мы предлагаем модель динамических Гауссовских моделей для представления динамических сургерических сцен, что позволяет рендерить инструменты хирургических операций из невиденных точек зрения и с деформациями в реальных тканевых фонах.
#### Метод
Мы предложили новый динамический Гауссовский моделирований, отражающий характеристики деформаций и динамических сцен сургерии. Модель использует техники рендеринга Гауссовского шума для создания реалистичных изображений инструментов в движении и с деформациями. Мы также применяем динамическую стратегию обучения для адаптации к камерам с некорректными позициями из реальных условий. Для автоматического генерирования аннотаций в синтетических данных мы предлагаем метод, основанный на динамических Гауссовых моделях. Это подход позволяет создать высококачественные датасеты для обучения моделей.
#### Результаты
Мы строили новый датасет, содержащий 14,000 кадров инструментов и камеры в сценах с подкорпусным свином. Мы сравнили синтетические изображения, сгенерированные нашей моделью, с изображениями, полученными стандартным методом данных. Результаты показали, что наш метод выдает изображения с реалистичным качеством, с оценкой Peak-Signal-to-Noise Ratio (PSNR) в 29.87. Мы также утвердили, что нейронные сети, обученные на синтетических данных, показали лучшую производительность по сравнению с моделями, обученными на данных стандартных методов.
#### Значимость
Наша технология может быть применена в сургерической науке для обучения моделей сургерических инструментов. У нее есть преимущества, такие как увеличение качества тренировочных данных, снижение необходимости в больших датасетах и более высокая точность. Мы применили нашу технологию к различным сценам и демонстрируем, что она может быть применена в различных сургерических операциях, чтобы повысить качество обучения и анализа данных.
#### Выводы
Мы достигли существенных улучшений в качестве синтетических изображений в сургерии. Наш метод может быть использован для аддитивного обучения систем, чтобы повысить точность в с
Abstract
Computer vision-based technologies significantly enhance surgical automation
by advancing tool tracking, detection, and localization. However, Current
data-driven approaches are data-voracious, requiring large, high-quality
labeled image datasets, which limits their application in surgical data
science. Our Work introduces a novel dynamic Gaussian Splatting technique to
address the data scarcity in surgical image datasets. We propose a dynamic
Gaussian model to represent dynamic surgical scenes, enabling the rendering of
surgical instruments from unseen viewpoints and deformations with real tissue
backgrounds. We utilize a dynamic training adjustment strategy to address
challenges posed by poorly calibrated camera poses from real-world scenarios.
Additionally, we propose a method based on dynamic Gaussians for automatically
generating annotations for our synthetic data. For evaluation, we constructed a
new dataset featuring seven scenes with 14,000 frames of tool and camera motion
and tool jaw articulation, with a background of an ex-vivo porcine model. Using
this dataset, we synthetically replicate the scene deformation from the ground
truth data, allowing direct comparisons of synthetic image quality.
Experimental results illustrate that our method generates photo-realistic
labeled image datasets with the highest values in Peak-Signal-to-Noise Ratio
(29.87). We further evaluate the performance of medical-specific neural
networks trained on real and synthetic images using an unseen real-world image
dataset. Our results show that the performance of models trained on synthetic
images generated by the proposed method outperforms those trained with
state-of-the-art standard data augmentation by 10%, leading to an overall
improvement in model performances by nearly 15%.
Ссылки и действия
Дополнительные ресурсы: