Fairness of Automatic Speech Recognition: Looking Through a Philosophical Lens

2508.07143v1 cs.CL, cs.AI 2025-08-13
Авторы:

Anna Seo Gyeong Choi, Hoon Choi

Резюме на русском

## Контекст Automatic Speech Recognition (ASR) — это технология, которая позволяет компьютерам переводить речь на текст. Она используется во многих областях, от смартфонов до систем оперативной поддержки. Однако недостаточно внимания уделяется проблеме справедливости в ASR. Несправедливость в ASR может возникать, когда система плохо распознает речь отдельных групп людей, например, носителей нестандартных диалектов. Это может привести к недостатку доверия к технологиям и даже к дискриминации. Авторы статьи предлагают рассмотреть эту проблему с позиции философии, чтобы понять, как ASR может укреплять существующие исторические несправедливости. ## Метод Авторы используют философский анализ, чтобы изучить проблему справедливости в ASR. Они различают два типа дискриминации: нейтральную классификацию (discriminate1) и вредную дискриминацию (discriminate2). Дискриминация в ASR относится к вредному типу, когда система постоянно неверно распознает речь нестандартных диалектов. Также они идентифицируют три этических аспекта, влияющих на справедливость ASR: 1. **Темпоральная нагрузка** (temporal taxation) — это нагрузка, которая предлагается носителям нестандартных диалектов, когда они должны постоянно повторяться или исправлять распознанный текст. 2. **Разрыв в диалогах** (conversational disruption) — когда ASR неправильно распознает речь, это может нарушить диалог и вызвать неудобство. 3. **Подкрепление идентичности** (identity reinforcement) — речь является сильным идентификатором личности и культуры, поэтому неправильное распознание может привести к чувству неуважения. ## Результаты Авторы проанализировали существующие ASR-системы и показали, как они могут поддерживать и усиливать существующие неравенства в языковых стандартах. Например, системы часто лучше работают с английским, но стараются распознать речь отдельных сообществ, например, афроамериканских диалектов. Это приводит к темпоральной нагрузке и неприятным ощущениям для носителей таких диалектов. Также было проанализировано, как ASR может повлиять на конфликты в диалогах и нарушить поток разговора. ## Значимость Эта работа имеет значимость в следующих областях: 1. **Технологии распознавания речи** — показано, как справедливость ASR может повлиять на пользователей и повысить доверие к технологиям. 2. **Социальная справедливость** — теоретические выводы могут помочь избежать дискриминации в технологиях и создать более социально честные системы. 3. **Культурная политика** — это подход может помочь учитывать разнообразие языков и культур в разработке технологий. ## Выводы А

Abstract

Automatic Speech Recognition (ASR) systems now mediate countless human-technology interactions, yet research on their fairness implications remains surprisingly limited. This paper examines ASR bias through a philosophical lens, arguing that systematic misrecognition of certain speech varieties constitutes more than a technical limitation -- it represents a form of disrespect that compounds historical injustices against marginalized linguistic communities. We distinguish between morally neutral classification (discriminate1) and harmful discrimination (discriminate2), demonstrating how ASR systems can inadvertently transform the former into the latter when they consistently misrecognize non-standard dialects. We identify three unique ethical dimensions of speech technologies that differentiate ASR bias from other algorithmic fairness concerns: the temporal burden placed on speakers of non-standard varieties ("temporal taxation"), the disruption of conversational flow when systems misrecognize speech, and the fundamental connection between speech patterns and personal/cultural identity. These factors create asymmetric power relationships that existing technical fairness metrics fail to capture. The paper analyzes the tension between linguistic standardization and pluralism in ASR development, arguing that current approaches often embed and reinforce problematic language ideologies. We conclude that addressing ASR bias requires more than technical interventions; it demands recognition of diverse speech varieties as legitimate forms of expression worthy of technological accommodation. This philosophical reframing offers new pathways for developing ASR systems that respect linguistic diversity and speaker autonomy.

Ссылки и действия