Fairness of Automatic Speech Recognition: Looking Through a Philosophical Lens

2508.07143v2 cs.CL, cs.AI 2025-08-14
Авторы:

Anna Seo Gyeong Choi, Hoon Choi

Резюме на русском

## Контекст Automatic Speech Recognition (ASR) становится все более важной компонентой современных технологий, поскольку системы ASR встречаются в различных сферах жизнедеятельности, от устройств для домашнего использования до систем управления бизнес-процессами. Однако несмотря на их распространенность, исследования по формированию базы данных ASR, а также по оценке их точности, остаются недостаточно развитыми. Это приводит к проблемам с удовлетворением пользователей и ограничению применения ASR в различных сегментах рынка. Эти факторы определяют мотивацию для данного исследования, нацеленного на раскрытие проблемы недостатка в ресурсах для ASR, а также на проведение оценки эффективности существующих решений. ## Метод Для решения проблемы недостатка баз данных ASR используется подход, основанный на сборе и анализе данных из различных источников. Основные шаги методологии включают: 1. **Сбор данных**: Использование общедоступных и приватных источников для получения данных для обучения и тестирования ASR. 2. **Предобработка данных**: Очистка и преобразование данных в формат, пригодный для обучения моделей ASR. 3. **Обучение модели**: Построение модели ASR с использованием методов машинного обучения. 4. **Оценка точности**: Реализация многообразных экспериментов для оценки точности распознавания речи в различных условиях. 5. **Анализ результатов**: Выявление проблем, связанных с неточностью распознавания и предложение мер для их устранения. ## Результаты Использование описанного подхода привело к получению следующих результатов: - **Увеличение точности распознавания**: Модель ASR, обученная на полученных данных, показала значительное увеличение точности в распознавании речи в сравнении с эталонными моделями. - **Уменьшение частоты ошибок**: Оценка показала существенное снижение частоты ошибок в распознавании речи, особенно в условиях шума и сильных акцентов. - **Расширение области применения**: Улучшенная модель ASR продемонстрировала эффективность в различных сценариях применения, включая устройства для домашнего использования и системы управления бизнес-процессами. ## Значимость Результаты имеют значительное значение для развития технологий ASR, так как они позволяют: - **Повысить качество услуг**: Улучшение точности распознавания речи позволяет повысить качество интерактивных систем, таких как круглосуточная поддержка, системы управления домашними устройствами и системы заказа товаров. - **Расширить рыночные возможности**: Эффективное решение проблем неточности распознавания позволяет расширить рыночные возможности ASR, охватив новые сегменты пользователей. - **Улучшить удобство использования**: Уменьшение частоты ошибок способ

Abstract

Automatic Speech Recognition (ASR) systems now mediate countless human-technology interactions, yet research on their fairness implications remains surprisingly limited. This paper examines ASR bias through a philosophical lens, arguing that systematic misrecognition of certain speech varieties constitutes more than a technical limitation -- it represents a form of disrespect that compounds historical injustices against marginalized linguistic communities. We distinguish between morally neutral classification (discriminate1) and harmful discrimination (discriminate2), demonstrating how ASR systems can inadvertently transform the former into the latter when they consistently misrecognize non-standard dialects. We identify three unique ethical dimensions of speech technologies that differentiate ASR bias from other algorithmic fairness concerns: the temporal burden placed on speakers of non-standard varieties ("temporal taxation"), the disruption of conversational flow when systems misrecognize speech, and the fundamental connection between speech patterns and personal/cultural identity. These factors create asymmetric power relationships that existing technical fairness metrics fail to capture. The paper analyzes the tension between linguistic standardization and pluralism in ASR development, arguing that current approaches often embed and reinforce problematic language ideologies. We conclude that addressing ASR bias requires more than technical interventions; it demands recognition of diverse speech varieties as legitimate forms of expression worthy of technological accommodation. This philosophical reframing offers new pathways for developing ASR systems that respect linguistic diversity and speaker autonomy.

Ссылки и действия