Breathing and Semantic Pause Detection and Exertion-Level Classification in Post-Exercise Speech

2509.15473v1 eess.AS, cs.CL, cs.LG, cs.SD 2025-09-23
Авторы:

Yuyu Wang, Wuyue Xia, Huaxiu Yao, Jingping Nie

Резюме на русском

## Контекст Область исследования связана с анализом пост-тренировочной речи, которая содержит богатые физиологические и языковые сигналы. Эти сигналы отражают различные аспекты физиологического состояния человека, включая темп восстановления, функцию легких и уровень утомления. Одним из ключевых аспектов является выявление и различение различных типов пауз в речи - семантических, дыхательных и комбинированных. Эти паузы могут свидетельствовать о различных физиологических процессах и их отклонениях. Несмотря на важность этого вопроса, существующие работы на этой теме остаются ограниченными, особенно в контексте использования современных методов анализа данных. Мотивация для этого исследования основывается на необходимости создания более точных и надежных систем, которые могут анализировать пост-тренировочную речь и давать быстрые выводы о состоянии здоровья человека. ## Метод Для решения поставленных задач использована систематическая методология, включающая несколько этапов. В качестве исходных данных использовался специально созданный датасет, содержащий синхронизированные аудио- и респираторные сигналы. Для распознавания пауз использовались модели глубокого обучения, такие как GRU, 1D CNN-LSTM, AlexNet и VGG16, а также различные акустические признаки, такие как MFCC и MFB. Также были рассмотрены представления слоёв Wav2Vec2. Методы включили как классификационные, так и регрессионные подходы. Для лучшей точности и объёмности выявления различных типов пауз была разработана двухступенчатая модель - сначала происходит детекция, затем классификация. ## Результаты В ходе экспериментов было получено несколько важных результатов. Для распознавания семантических пауз была достигнута точность до 89%. Для дыхательных пауз - до 55%, а для комбинированных - до 86%. Общая точность распознавания пауз составила 73%. Для классификации уровня утомления после тренировки была достигнута точность 90.5%. Эти результаты превышают показатели предыдущих исследований, что демонстрирует эффективность предложенной модели. ## Значимость Предложенная модель может применяться в различных областях, включая медицину, спорт, исследования физиологических процессов. Она обладает высокой точностью и может быть использована для мониторинга здоровья и оценки уровня утомления после физической нагрузки. Наиболее значимыми преимуществами являются точность распознавания различных типов пауз и возможность интеграции с другими системами мониторинга здоровья. Это может повлиять на развитие

Abstract

Post-exercise speech contains rich physiological and linguistic cues, often marked by semantic pauses, breathing pauses, and combined breathing-semantic pauses. Detecting these events enables assessment of recovery rate, lung function, and exertion-related abnormalities. However, existing works on identifying and distinguishing different types of pauses in this context are limited. In this work, building on a recently released dataset with synchronized audio and respiration signals, we provide systematic annotations of pause types. Using these annotations, we systematically conduct exploratory breathing and semantic pause detection and exertion-level classification across deep learning models (GRU, 1D CNN-LSTM, AlexNet, VGG16), acoustic features (MFCC, MFB), and layer-stratified Wav2Vec2 representations. We evaluate three setups-single feature, feature fusion, and a two-stage detection-classification cascade-under both classification and regression formulations. Results show per-type detection accuracy up to 89$\%$ for semantic, 55$\%$ for breathing, 86$\%$ for combined pauses, and 73$\%$overall, while exertion-level classification achieves 90.5$\%$ accuracy, outperformin prior work.

Ссылки и действия

Связанные статьи

Unified Learnable 2D Convolutional Feature Extraction for ASR

#### Контекст Автоматический распознавание речи (ASR) является ключевым направлением в области обработки естественного ...

2025-09-16

Error Analysis in a Modular Meeting Transcription System

## Контекст Meeting transcription является областью высокой актуальности и существенного прогресса в последние годы. Одн...

2025-09-16

Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapt...

#### Контекст Текстовое-к-речевое преобразование (Text-to-Speech, TTS) является важной областью искусственного интеллек...

2025-08-27

ProMode: A Speech Prosody Model Conditioned on Acoustic and Textual Inputs

## Контекст Просодия (speech prosody) — это важный аспект речи, который необходим для передачи эмоций, интонаций, информ...

2025-08-15