AVPDN: Learning Motion-Robust and Scale-Adaptive Representations for Video-Based Polyp Detection
2508.03458v1
cs.CV
2025-08-09
Авторы:
Zilin Chen, Shengnan Lu
Резюме на русском
В статье предлагается метод **AVPDN** (Adaptive Video Polyp Detection Network) для точного обнаружения полипов в киноколоноскопических видео, что является ключевым этапом диагностики рака кишечника. Основная проблема заключается в том, что колоноскопические видео часто перемещаются быстро, что приводит к шуму, разрушению структуры сцены и повышению риска ложноположительных результатов.
Чтобы справиться с этими вызовами, **AVPDN** включает два основных модуля. Модуль **AFIA** (Adaptive Feature Interaction and Augmentation) улучшает особенности при помощи трех ветвей: глобального контекста, очищения шумовых особенностей и обмена информацией между ветвями. Модуль **SACI** (Scale-Aware Context Integration) улучшает интеграцию многомерных признаков с помощью дилатационных сверток с различными радиусами информации.
Испытания на различных публичных базах данных показали, что **AVPDN** эффективен в обнаружении полипов и продемонстрировал высокую устойчивость к шуму и многомерности. Это делает его ключевым инструментом для повышения точности диагностики в колоноскопии.
Abstract
Accurate detection of polyps is of critical importance for the early and
intermediate stages of colorectal cancer diagnosis. Compared to static images,
dynamic colonoscopy videos provide more comprehensive visual information, which
can facilitate the development of effective treatment plans. However, unlike
fixed-camera recordings, colonoscopy videos often exhibit rapid camera
movement, introducing substantial background noise that disrupts the structural
integrity of the scene and increases the risk of false positives. To address
these challenges, we propose the Adaptive Video Polyp Detection Network
(AVPDN), a robust framework for multi-scale polyp detection in colonoscopy
videos. AVPDN incorporates two key components: the Adaptive Feature Interaction
and Augmentation (AFIA) module and the Scale-Aware Context Integration (SACI)
module. The AFIA module adopts a triple-branch architecture to enhance feature
representation. It employs dense self-attention for global context modeling,
sparse self-attention to mitigate the influence of low query-key similarity in
feature aggregation, and channel shuffle operations to facilitate inter-branch
information exchange. In parallel, the SACI module is designed to strengthen
multi-scale feature integration. It utilizes dilated convolutions with varying
receptive fields to capture contextual information at multiple spatial scales,
thereby improving the model's denoising capability. Experiments conducted on
several challenging public benchmarks demonstrate the effectiveness and
generalization ability of the proposed method, achieving competitive
performance in video-based polyp detection tasks.
Ссылки и действия
Дополнительные ресурсы: