Voice Pathology Detection Using Phonation

2508.07587v1 cs.CV, cs.SD, eess.AS 2025-08-13

Авторы:

Sri Raksha Siva, Nived Suthahar, Prakash Boominathan, Uma Ranjan

Резюме на русском

## Контекст Осложнения в речи и голосовые расстройства значительно сказываются на качестве жизни и общении, требуя оперативного и точного диагноза. Несмотря на доступность стандартных методов, таких как ларингоскопия, их применение часто ограничивается техническими и доступностью аппаратуры. Данное исследование рассматривает возможности использования голосовых сигналов для диагностики голосовых расстройств с помощью машинного обучения. Это может стать перспективным алгоритмом для раннего выявления заболеваний, улучшения здоровья и нейродиагностики. База данных Saarbrücken Voice Database, содержащая сигналы голоса, станет основой для проведения экспериментов. ## Метод Для решения проблемы используется нейронный архитектурный подход, основанный на рекуррентных нейронных сетях (RNN), включая LSTM, и возможностях ансамблей. Данные обрабатываются с помощью физических признаков, таких как Хёлдер и Херст-экспоненты, а также с использованием звуковых признаков, таких как MFCC, Хрома и Mel-спектрограммы. Методы аугментации данных, включая питочный сдвиг и добавление гауссовского шума, применяются для повышения универсальности модели. Для лучшей качественной обработки сигнала применяются чистящие алгоритмы. Такой подход позволяет построить мощную модель, выявляющую голосовые расстройства. ## Результаты Проведены эксперименты с разными моделями, включая LSTM, Attention-LSTM и другие варианты, для сравнения качества распознавания. Использовались тренировочные и тестовые выборки из Saarbrücken Voice Database. Результаты показали, что модель Attention-LSTM, задействованная в комбинации с признаками Хёлдер и Херст, показала самый высокий показатель точности. Этот подход демонстрирует высокую точность в различных скрытых режимах расстройств голоса. Также было продемонстрировано, что аугментационные методы могут значительно повысить общую точность модели. ## Значимость Разработанная модель представляет собой невинный алгоритм для раннего выявления голосовых расстройств. Это предоставляет возможность создания инструментов для автоматизированной диагностики, которые могут использоваться в нейродиагностике и медицинских приложениях. Повышение точности диагностики может улучшить качество лечения и эффективность медицинского обслуживания. Будущим направлением развития является расширение модели для широкого спектма голосовых расстройств. ## Выводы Результаты доказывают эффективность предложенного подхода в диагностике голосовых расстройств с помощью голосовых сигналов. Открывается путь к автоматизированным и доступным методам диагност

Abstract

Voice disorders significantly affect communication and quality of life, requiring an early and accurate diagnosis. Traditional methods like laryngoscopy are invasive, subjective, and often inaccessible. This research proposes a noninvasive, machine learning-based framework for detecting voice pathologies using phonation data. Phonation data from the Saarbr\"ucken Voice Database are analyzed using acoustic features such as Mel Frequency Cepstral Coefficients (MFCCs), chroma features, and Mel spectrograms. Recurrent Neural Networks (RNNs), including LSTM and attention mechanisms, classify samples into normal and pathological categories. Data augmentation techniques, including pitch shifting and Gaussian noise addition, enhance model generalizability, while preprocessing ensures signal quality. Scale-based features, such as H\"older and Hurst exponents, further capture signal irregularities and long-term dependencies. The proposed framework offers a noninvasive, automated diagnostic tool for early detection of voice pathologies, supporting AI-driven healthcare, and improving patient outcomes.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Voice Pathology Detection Using Phonation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Segmenting Collision Sound Sources in Egocentric Videos

Segmenting Collision Sound Sources in Egocentric Videos

Pindrop it! Audio and Visual Deepfake Countermeasures for Robust Detection and F...

How Would It Sound? Material-Controlled Multimodal Acoustic Profile Generation f...

From Detection to Correction: Backdoor-Resilient Face Recognition via Vision-Lan...

Навигация