Sound Signal Synthesis with Auxiliary Classifier GAN, COVID-19 cough as an example

2508.08892v1 cs.SD, cs.LG 2025-08-14
Авторы:

Yahya Sherif Solayman Mohamed Saleh, Ahmed Mohammed Dabbous, Lama Alkhaled, Hum Yan Chai, Muhammad Ehsan Rana, Hamam Mokayed

Резюме на русском

## Контекст Современные технологии искусственного интеллекта (AI) широко применяются в различных областях, включая здравоохранение. Наибольший интерес в этой области вызывает развитие моделей, которые могут помогать врачам в диагностике и лечении болезней. Одна из самых острых проблем в этой области является нехватка данных для обучения моделей. Например, во время распространения COVID-19, многие исследователи занимались разработкой моделей, которые могут диагностировать заболевание на основе различных данных, в том числе звуковых сигналов кушания. Однако получение качественных данных для обучения моделей оказалось сложным из-за нестабильности и множественных факторов, влияющих на звуковые сигналы. Для решения этой проблемы было предложено генерировать синтетические данные для обучения моделей. Этот подход имеет потенциал для улучшения точности диагностики и повышения доступности данных для обучения моделей. ## Метод В работе используется методология синтеза звуковых сигналов с помощью генеративной антропологической сети с вспомогательным классификатором (Auxiliary Classifier GAN, ACGAN). Данная модель генерирует синтетические Mel-спектрограммы звуковых сигналов кушания, как для здоровых людей, так и для людей, страдающих COVID-19. Модель обучается на данных из Coughvid-датасета, после чего производится подбор модели для обучения классификатора. Используются модификации методов для обработки нестабильности в генеративных сетях и исправления ошибок. Также в работе применяются техники для оценки качества синтетических данных и их интеграции в обучающую выборку классификатора. ## Результаты В ходе экспериментов проводилась оценка качества синтетических звуковых сигналов генератора ACGAN. Была получена модель, которая успешно генерирует Mel-спектрограммы для здоровых и больных COVID-19. Эти синтетические данные использовались для расширения выборки обучения CNN-классификатора. Точность классификации на тестовой выборке увеличилась с 72% до 75% при использовании синтетических данных. Эксперименты показали, что использование синтетических данных может улучшить точность диагностики, но при этом требуется внимательное мониторинге некоторых недостатков в процессе обучения. ## Значимость Результаты работы могут быть применены в областях медицины и AI для повышения точности диагностики COVID-19. Использование синтетических данных позволяет увеличить объем данных для обучения моделей, что важно в ситуациях, когда наличие реальных данных ограничено. Помимо этого, этот подход может быть применен для других задач, где требуется генерация звуковых сигналов, таких ка

Abstract

One of the fastest-growing domains in AI is healthcare. Given its importance, it has been the interest of many researchers to deploy ML models into the ever-demanding healthcare domain to aid doctors and increase accessibility. Delivering reliable models, however, demands a sizable amount of data, and the recent COVID-19 pandemic served as a reminder of the rampant and scary nature of healthcare that makes training models difficult. To alleviate such scarcity, many published works attempted to synthesize radiological cough data to train better COVID-19 detection models on the respective radiological data. To accommodate the time sensitivity expected during a pandemic, this work focuses on detecting COVID-19 through coughs using synthetic data to improve the accuracy of the classifier. The work begins by training a CNN on a balanced subset of the Coughvid dataset, establishing a baseline classification test accuracy of 72%. The paper demonstrates how an Auxiliary Classification GAN (ACGAN) may be trained to conditionally generate novel synthetic Mel Spectrograms of both healthy and COVID-19 coughs. These coughs are used to augment the training dataset of the CNN classifier, allowing it to reach a new test accuracy of 75%. The work highlights the expected messiness and inconsistency in training and offers insights into detecting and handling such shortcomings.

Ссылки и действия