Voice Pathology Detection Using Phonation
2508.07587v1
cs.CV, cs.SD, eess.AS
2025-08-13
Авторы:
Sri Raksha Siva, Nived Suthahar, Prakash Boominathan, Uma Ranjan
Резюме на русском
## Контекст
Осложнения в речи и голосовые расстройства значительно сказываются на качестве жизни и общении, требуя оперативного и точного диагноза. Несмотря на доступность стандартных методов, таких как ларингоскопия, их применение часто ограничивается техническими и доступностью аппаратуры. Данное исследование рассматривает возможности использования голосовых сигналов для диагностики голосовых расстройств с помощью машинного обучения. Это может стать перспективным алгоритмом для раннего выявления заболеваний, улучшения здоровья и нейродиагностики. База данных Saarbrücken Voice Database, содержащая сигналы голоса, станет основой для проведения экспериментов.
## Метод
Для решения проблемы используется нейронный архитектурный подход, основанный на рекуррентных нейронных сетях (RNN), включая LSTM, и возможностях ансамблей. Данные обрабатываются с помощью физических признаков, таких как Хёлдер и Херст-экспоненты, а также с использованием звуковых признаков, таких как MFCC, Хрома и Mel-спектрограммы. Методы аугментации данных, включая питочный сдвиг и добавление гауссовского шума, применяются для повышения универсальности модели. Для лучшей качественной обработки сигнала применяются чистящие алгоритмы. Такой подход позволяет построить мощную модель, выявляющую голосовые расстройства.
## Результаты
Проведены эксперименты с разными моделями, включая LSTM, Attention-LSTM и другие варианты, для сравнения качества распознавания. Использовались тренировочные и тестовые выборки из Saarbrücken Voice Database. Результаты показали, что модель Attention-LSTM, задействованная в комбинации с признаками Хёлдер и Херст, показала самый высокий показатель точности. Этот подход демонстрирует высокую точность в различных скрытых режимах расстройств голоса. Также было продемонстрировано, что аугментационные методы могут значительно повысить общую точность модели.
## Значимость
Разработанная модель представляет собой невинный алгоритм для раннего выявления голосовых расстройств. Это предоставляет возможность создания инструментов для автоматизированной диагностики, которые могут использоваться в нейродиагностике и медицинских приложениях. Повышение точности диагностики может улучшить качество лечения и эффективность медицинского обслуживания. Будущим направлением развития является расширение модели для широкого спектма голосовых расстройств.
## Выводы
Результаты доказывают эффективность предложенного подхода в диагностике голосовых расстройств с помощью голосовых сигналов. Открывается путь к автоматизированным и доступным методам диагност
Abstract
Voice disorders significantly affect communication and quality of life,
requiring an early and accurate diagnosis. Traditional methods like
laryngoscopy are invasive, subjective, and often inaccessible. This research
proposes a noninvasive, machine learning-based framework for detecting voice
pathologies using phonation data.
Phonation data from the Saarbr\"ucken Voice Database are analyzed using
acoustic features such as Mel Frequency Cepstral Coefficients (MFCCs), chroma
features, and Mel spectrograms. Recurrent Neural Networks (RNNs), including
LSTM and attention mechanisms, classify samples into normal and pathological
categories. Data augmentation techniques, including pitch shifting and Gaussian
noise addition, enhance model generalizability, while preprocessing ensures
signal quality. Scale-based features, such as H\"older and Hurst exponents,
further capture signal irregularities and long-term dependencies.
The proposed framework offers a noninvasive, automated diagnostic tool for
early detection of voice pathologies, supporting AI-driven healthcare, and
improving patient outcomes.
Ссылки и действия
Дополнительные ресурсы: