Nuclear Diffusion Models for Low-Rank Background Suppression in Videos
2509.20886v1
cs.CV, cs.LG, eess.IV
2025-09-27
Авторы:
Tristan S. W. Stevens, Oisín Nolan, Jean-Luc Robert, Ruud J. G. van Sloun
Резюме на русском
#### Контекст
Оптимальное визуальное восприятие видео подверждается значительным воздействию нарушений качества, включая шум, помехи и фоновые артефакты. Эти эффекты сильно влияют на точность анализа и восстановления видео. Наиболее распространенным подходом для устранения таких помех являются методы робастных компонент главного признака (RPCA), которые строятся на априорных ожиданиях о спектре шума и фонового содержимого. Однако эти методы часто не справляются с разнообразием и сложностью реальных видеоданных. Таким образом, возникает необходимость развития более гибких и точных подходов, которые могут лучше адаптироваться к характеристикам видео.
#### Метод
Предложена новая архитектура Nuclear Diffusion, которая комбинирует моделирование временных зависимостей с помощью инструментов низкоранговой моделирования и глубоких генерируемых предположений с помощью моделей постериорного диффузионного распространения. Метод начинает с разложения входных данных в его низкоранговую и спарсовую составляющие с помощью RPCA. Далее, для уточнения временных зависимостей используется модель низкого ранга временного моделирования. Наконец, для более точного восстановления динамического содержимого введена модель постериорного диффузионного распространения, которая использует глубокие генерируемые предположения для повышения точности. Архитектура предназначена для того, чтобы объединить преимущества низкоранговых моделей с глубокими моделями, чтобы обеспечить высокую точность восстановления видео.
#### Результаты
Nuclear Diffusion был оценен на реальных видеоданных, в частности, на задаче клинического восстановления сигнала в газографических ультразвуковых снимках сердца (dehazing). Экспериментальные результаты показали, что Nuclear Diffusion превосходит традиционные методы RPCA в двух основных аспектах: улучшение контрастности (gCNR) и сохранение сигнала (KS-статистика). Это объясняется значительным улучшением восстановления динамического содержимого, полученным благодаря использованию глубокой модели постериорного диффузионного распространения. Таким образом, Nuclear Diffusion демонстрирует высокую эффективность в решении проблем нарушения качества видео в реальных условиях.
#### Значимость
Проложенный подход имеет широкую область применения, включая медицинское видео, системы автоматического вождения, анализ видеосигнала в реальном времени. Он предоставляет надежные преимущества по сравнению с существующими методами, включая улучшенную точность восстановления, более точное восстановление динамического содержимого, и лучшую устойчивость к различным
Abstract
Video sequences often contain structured noise and background artifacts that
obscure dynamic content, posing challenges for accurate analysis and
restoration. Robust principal component methods address this by decomposing
data into low-rank and sparse components. Still, the sparsity assumption often
fails to capture the rich variability present in real video data. To overcome
this limitation, a hybrid framework that integrates low-rank temporal modeling
with diffusion posterior sampling is proposed. The proposed method, Nuclear
Diffusion, is evaluated on a real-world medical imaging problem, namely cardiac
ultrasound dehazing, and demonstrates improved dehazing performance compared to
traditional RPCA concerning contrast enhancement (gCNR) and signal preservation
(KS statistic). These results highlight the potential of combining model-based
temporal models with deep generative priors for high-fidelity video
restoration.
Ссылки и действия
Дополнительные ресурсы: