Advancing Data Equity: Practitioner Responsibility and Accountability in NLP Data Practices

2508.10071v1 cs.CY, cs.AI, cs.HC 2025-08-16
Авторы:

Jay L. Cunningham, Kevin Zhongyang Shao, Rock Yuren Pang, Nathaniel Mengist

Резюме на русском

## Контекст В последние годы в сфере искусственного интеллекта (ИИ) наблюдается возрастающий интерес к вопросам уравновешивания и улучшения эквити (данное понятие можно определить как справедливость и сплоченность в процессе развития и применения технологий ИИ). Особое внимание уделяется естественному языку обработки (NLP), где проблемы негативного влияния моделей ИИ на различные социальные группы становятся все более заметными. Несмотря на то, что много работ посвящено выявлению и анализу алгоритмической стереотипности, меньше внимания уделяется вопросу о том, как практикующие NLP-специалисты (например, те, кто занимается созданием, аннотацией и развертыванием данных) воспринимают проблемы эквити в процессе работы с данными NLP. Этот исследовательский подход становится ключевым для понимания ключевых проблем в области ИИ и для формирования решений, которые могут влиять на будущие технологические развития. ## Метод Работа основывается на опросе, проведенном в 2024 году, и на материалах фокус-группы. Основной акцент в подходе делается на исследование представлений и практик U.S.-based NLP-практиков, которые занимаются работой над данными, аннотацией и развертыванием моделей. Центральное внимание уделяется пониманию того, как эти специалисты понимают понятие "справедливости" в ИИ, какие вызовы и ограничения они сталкиваются в своей работе, и каким образом они взаимодействуют с новыми подходами к государственному управлению, такими как У.С. AI Bill of Rights. Методология исследования включает в себя анализ ответов, проведение интервью и использование концепции многоуровневого кадра государственного управления (multi-scalar AI governance framework), который позволяет выявить связь между техническими аспектами, политическими решениями и социальными запросами. ## Результаты На основе проведенных исследований были выявлены несколько основных находок. Во-первых, существует значительное расхождение между коммерческими целями и приверженностью к принципам справедливости в NLP-данных. Во-вторых, NLP-практикующие сталкиваются с ограничениями в работе, включая системные ограничения, организационные барьеры и технические затруднения. Несмотря на это, они призывают к более участительным и ответственным подходам к работе с данными, чтобы обеспечить более честную и справедливую систему. Третьим основным результатом является появление вызовов для нормативных подходов: практикующие NLP-специалисты выражают интерес к внедрению таких мер, как У.С. AI Bill of Rights, но при этом выделяют необходимость в более широком участии сообщества и более четкой струк

Abstract

While research has focused on surfacing and auditing algorithmic bias to ensure equitable AI development, less is known about how NLP practitioners - those directly involved in dataset development, annotation, and deployment - perceive and navigate issues of NLP data equity. This study is among the first to center practitioners' perspectives, linking their experiences to a multi-scalar AI governance framework and advancing participatory recommendations that bridge technical, policy, and community domains. Drawing on a 2024 questionnaire and focus group, we examine how U.S.-based NLP data practitioners conceptualize fairness, contend with organizational and systemic constraints, and engage emerging governance efforts such as the U.S. AI Bill of Rights. Findings reveal persistent tensions between commercial objectives and equity commitments, alongside calls for more participatory and accountable data workflows. We critically engage debates on data diversity and diversity washing, arguing that improving NLP equity requires structural governance reforms that support practitioner agency and community consent.

Ссылки и действия