Fairness of Automatic Speech Recognition: Looking Through a Philosophical Lens
2508.07143v1
cs.CL, cs.AI
2025-08-13
Авторы:
Anna Seo Gyeong Choi, Hoon Choi
Резюме на русском
## Контекст
Automatic Speech Recognition (ASR) — это технология, которая позволяет компьютерам переводить речь на текст. Она используется во многих областях, от смартфонов до систем оперативной поддержки. Однако недостаточно внимания уделяется проблеме справедливости в ASR. Несправедливость в ASR может возникать, когда система плохо распознает речь отдельных групп людей, например, носителей нестандартных диалектов. Это может привести к недостатку доверия к технологиям и даже к дискриминации. Авторы статьи предлагают рассмотреть эту проблему с позиции философии, чтобы понять, как ASR может укреплять существующие исторические несправедливости.
## Метод
Авторы используют философский анализ, чтобы изучить проблему справедливости в ASR. Они различают два типа дискриминации: нейтральную классификацию (discriminate1) и вредную дискриминацию (discriminate2). Дискриминация в ASR относится к вредному типу, когда система постоянно неверно распознает речь нестандартных диалектов. Также они идентифицируют три этических аспекта, влияющих на справедливость ASR:
1. **Темпоральная нагрузка** (temporal taxation) — это нагрузка, которая предлагается носителям нестандартных диалектов, когда они должны постоянно повторяться или исправлять распознанный текст.
2. **Разрыв в диалогах** (conversational disruption) — когда ASR неправильно распознает речь, это может нарушить диалог и вызвать неудобство.
3. **Подкрепление идентичности** (identity reinforcement) — речь является сильным идентификатором личности и культуры, поэтому неправильное распознание может привести к чувству неуважения.
## Результаты
Авторы проанализировали существующие ASR-системы и показали, как они могут поддерживать и усиливать существующие неравенства в языковых стандартах. Например, системы часто лучше работают с английским, но стараются распознать речь отдельных сообществ, например, афроамериканских диалектов. Это приводит к темпоральной нагрузке и неприятным ощущениям для носителей таких диалектов. Также было проанализировано, как ASR может повлиять на конфликты в диалогах и нарушить поток разговора.
## Значимость
Эта работа имеет значимость в следующих областях:
1. **Технологии распознавания речи** — показано, как справедливость ASR может повлиять на пользователей и повысить доверие к технологиям.
2. **Социальная справедливость** — теоретические выводы могут помочь избежать дискриминации в технологиях и создать более социально честные системы.
3. **Культурная политика** — это подход может помочь учитывать разнообразие языков и культур в разработке технологий.
## Выводы
А
Abstract
Automatic Speech Recognition (ASR) systems now mediate countless
human-technology interactions, yet research on their fairness implications
remains surprisingly limited. This paper examines ASR bias through a
philosophical lens, arguing that systematic misrecognition of certain speech
varieties constitutes more than a technical limitation -- it represents a form
of disrespect that compounds historical injustices against marginalized
linguistic communities. We distinguish between morally neutral classification
(discriminate1) and harmful discrimination (discriminate2), demonstrating how
ASR systems can inadvertently transform the former into the latter when they
consistently misrecognize non-standard dialects. We identify three unique
ethical dimensions of speech technologies that differentiate ASR bias from
other algorithmic fairness concerns: the temporal burden placed on speakers of
non-standard varieties ("temporal taxation"), the disruption of conversational
flow when systems misrecognize speech, and the fundamental connection between
speech patterns and personal/cultural identity. These factors create asymmetric
power relationships that existing technical fairness metrics fail to capture.
The paper analyzes the tension between linguistic standardization and pluralism
in ASR development, arguing that current approaches often embed and reinforce
problematic language ideologies. We conclude that addressing ASR bias requires
more than technical interventions; it demands recognition of diverse speech
varieties as legitimate forms of expression worthy of technological
accommodation. This philosophical reframing offers new pathways for developing
ASR systems that respect linguistic diversity and speaker autonomy.
Ссылки и действия
Дополнительные ресурсы: