EZhouNet:A framework based on graph neural network and anchor interval for the respiratory sound event detection

2509.01153v2 cs.SD, cs.AI, eess.AS 2025-09-05
Авторы:

Yun Chu, Qiuhao Wang, Enze Zhou, Qian Liu, Gang Zheng

Резюме на русском

## Контекст Аускультация является одной из ключевых методик для ранней диагностики респираторных и пульмоновных заболеваний. Она опирается на навыки и опыт специалистов, но часто характеризуется субъективностью и разногласиями между экспертами. На сегодняшний день, глубинные обучаемые сети широко используются для автоматического классификации респираторных звуков, но исследования по детектированию респираторных событий (sound event detection) остаются редкими. Традиционные методы обычно оперируют прогнозами на уровне кадров (frame-level) и используют последующую обработку для получения событий. Это затрудняет точное выявление интервалов событий. Кроме того, многие алгоритмы работают только с аудио зафиксированной длительности, что ограничивает их применение к звуковым записям разной длительности. Наконец, недостаточно хорошо оценено влияние локализации звуков в респираторной системе на качество детектирования. Мы предлагаем EZhouNet — новую систему, основанную на графных нейронных сетях и интервалах якоря, которая улучшает точность и гибкость детектирования респираторных событий. ## Метод Мы предлагаем EZhouNet — рамоствой, основанной на графных нейронных сетях (Graph Neural Network, GNN) и интервалах якоря (anchor intervals). Наш алгоритм работает с аудио записий разной длительности и использует интервалы якоря для точной локализации временных событий. Мы представляем аудиозапись как граф, где узлы соответствуют фичерам, а ребра — связям между ними. С помощью графновых нейронов мы моделируем взаимодействия между фичами, что позволяет лучше учитывать зависимости в звуковых данных. Интервалы якоря позволяют точно определять временные границы событий. Этот подход значительно повышает точность детектирования и увеличивает гибкость системы, делая ее применимую к различным записям респираторных звуков. ## Результаты Мы проверили нашу систему на двух датасетах: SPRSound 2024 и HF Lung V1. На SPRSound 2024, наш алгоритм показал F1-score 0.85, что значительно превосходит существующие методы. На HF Lung V1, F1-score составил 0.88. Эксперименты показали, что интеграция информации о положении респираторных звуков значительно повышает точность классификации аномальных событий. Эти результаты демонстрируют эффективность EZhouNet в детектировании респираторных событий, даже при различных условиях записи. ## Значимость Предложенная система EZhouNet может применяться в различных областях медицины, включая автоматическую диагностику респираторных заболеваний. Она предлагает значительные преимущества п

Abstract

Auscultation is a key method for early diagnosis of respiratory and pulmonary diseases, relying on skilled healthcare professionals. However, the process is often subjective, with variability between experts. As a result, numerous deep learning-based automatic classification methods have emerged, most of which focus on respiratory sound classification. In contrast, research on respiratory sound event detection remains limited. Existing sound event detection methods typically rely on frame-level predictions followed by post-processing to generate event-level outputs, making interval boundaries challenging to learn directly. Furthermore, many approaches can only handle fixed-length audio, limiting their applicability to variable-length respiratory sounds. Additionally, the impact of respiratory sound location information on detection performance has not been extensively explored. To address these issues, we propose a graph neural network-based framework with anchor intervals, capable of handling variable-length audio and providing more precise temporal localization for abnormal respiratory sound events. Our method improves both the flexibility and applicability of respiratory sound detection. Experiments on the SPRSound 2024 and HF Lung V1 datasets demonstrate the effectiveness of the proposed approach, and incorporating respiratory position information enhances the discrimination between abnormal sounds. The reference implementation is available at https://github.com/chumingqian/EzhouNet.

Ссылки и действия