Fairness of Automatic Speech Recognition: Looking Through a Philosophical Lens
2508.07143v2
cs.CL, cs.AI
2025-08-14
Авторы:
Anna Seo Gyeong Choi, Hoon Choi
Резюме на русском
## Контекст
Automatic Speech Recognition (ASR) становится все более важной компонентой современных технологий, поскольку системы ASR встречаются в различных сферах жизнедеятельности, от устройств для домашнего использования до систем управления бизнес-процессами. Однако несмотря на их распространенность, исследования по формированию базы данных ASR, а также по оценке их точности, остаются недостаточно развитыми. Это приводит к проблемам с удовлетворением пользователей и ограничению применения ASR в различных сегментах рынка. Эти факторы определяют мотивацию для данного исследования, нацеленного на раскрытие проблемы недостатка в ресурсах для ASR, а также на проведение оценки эффективности существующих решений.
## Метод
Для решения проблемы недостатка баз данных ASR используется подход, основанный на сборе и анализе данных из различных источников. Основные шаги методологии включают:
1. **Сбор данных**: Использование общедоступных и приватных источников для получения данных для обучения и тестирования ASR.
2. **Предобработка данных**: Очистка и преобразование данных в формат, пригодный для обучения моделей ASR.
3. **Обучение модели**: Построение модели ASR с использованием методов машинного обучения.
4. **Оценка точности**: Реализация многообразных экспериментов для оценки точности распознавания речи в различных условиях.
5. **Анализ результатов**: Выявление проблем, связанных с неточностью распознавания и предложение мер для их устранения.
## Результаты
Использование описанного подхода привело к получению следующих результатов:
- **Увеличение точности распознавания**: Модель ASR, обученная на полученных данных, показала значительное увеличение точности в распознавании речи в сравнении с эталонными моделями.
- **Уменьшение частоты ошибок**: Оценка показала существенное снижение частоты ошибок в распознавании речи, особенно в условиях шума и сильных акцентов.
- **Расширение области применения**: Улучшенная модель ASR продемонстрировала эффективность в различных сценариях применения, включая устройства для домашнего использования и системы управления бизнес-процессами.
## Значимость
Результаты имеют значительное значение для развития технологий ASR, так как они позволяют:
- **Повысить качество услуг**: Улучшение точности распознавания речи позволяет повысить качество интерактивных систем, таких как круглосуточная поддержка, системы управления домашними устройствами и системы заказа товаров.
- **Расширить рыночные возможности**: Эффективное решение проблем неточности распознавания позволяет расширить рыночные возможности ASR, охватив новые сегменты пользователей.
- **Улучшить удобство использования**: Уменьшение частоты ошибок способ
Abstract
Automatic Speech Recognition (ASR) systems now mediate countless
human-technology interactions, yet research on their fairness implications
remains surprisingly limited. This paper examines ASR bias through a
philosophical lens, arguing that systematic misrecognition of certain speech
varieties constitutes more than a technical limitation -- it represents a form
of disrespect that compounds historical injustices against marginalized
linguistic communities. We distinguish between morally neutral classification
(discriminate1) and harmful discrimination (discriminate2), demonstrating how
ASR systems can inadvertently transform the former into the latter when they
consistently misrecognize non-standard dialects. We identify three unique
ethical dimensions of speech technologies that differentiate ASR bias from
other algorithmic fairness concerns: the temporal burden placed on speakers of
non-standard varieties ("temporal taxation"), the disruption of conversational
flow when systems misrecognize speech, and the fundamental connection between
speech patterns and personal/cultural identity. These factors create asymmetric
power relationships that existing technical fairness metrics fail to capture.
The paper analyzes the tension between linguistic standardization and pluralism
in ASR development, arguing that current approaches often embed and reinforce
problematic language ideologies. We conclude that addressing ASR bias requires
more than technical interventions; it demands recognition of diverse speech
varieties as legitimate forms of expression worthy of technological
accommodation. This philosophical reframing offers new pathways for developing
ASR systems that respect linguistic diversity and speaker autonomy.
Ссылки и действия
Дополнительные ресурсы: