Advancing Data Equity: Practitioner Responsibility and Accountability in NLP Data Practices
2508.10071v1
cs.CY, cs.AI, cs.HC
2025-08-16
Авторы:
Jay L. Cunningham, Kevin Zhongyang Shao, Rock Yuren Pang, Nathaniel Mengist
Резюме на русском
## Контекст
В последние годы в сфере искусственного интеллекта (ИИ) наблюдается возрастающий интерес к вопросам уравновешивания и улучшения эквити (данное понятие можно определить как справедливость и сплоченность в процессе развития и применения технологий ИИ). Особое внимание уделяется естественному языку обработки (NLP), где проблемы негативного влияния моделей ИИ на различные социальные группы становятся все более заметными. Несмотря на то, что много работ посвящено выявлению и анализу алгоритмической стереотипности, меньше внимания уделяется вопросу о том, как практикующие NLP-специалисты (например, те, кто занимается созданием, аннотацией и развертыванием данных) воспринимают проблемы эквити в процессе работы с данными NLP. Этот исследовательский подход становится ключевым для понимания ключевых проблем в области ИИ и для формирования решений, которые могут влиять на будущие технологические развития.
## Метод
Работа основывается на опросе, проведенном в 2024 году, и на материалах фокус-группы. Основной акцент в подходе делается на исследование представлений и практик U.S.-based NLP-практиков, которые занимаются работой над данными, аннотацией и развертыванием моделей. Центральное внимание уделяется пониманию того, как эти специалисты понимают понятие "справедливости" в ИИ, какие вызовы и ограничения они сталкиваются в своей работе, и каким образом они взаимодействуют с новыми подходами к государственному управлению, такими как У.С. AI Bill of Rights. Методология исследования включает в себя анализ ответов, проведение интервью и использование концепции многоуровневого кадра государственного управления (multi-scalar AI governance framework), который позволяет выявить связь между техническими аспектами, политическими решениями и социальными запросами.
## Результаты
На основе проведенных исследований были выявлены несколько основных находок. Во-первых, существует значительное расхождение между коммерческими целями и приверженностью к принципам справедливости в NLP-данных. Во-вторых, NLP-практикующие сталкиваются с ограничениями в работе, включая системные ограничения, организационные барьеры и технические затруднения. Несмотря на это, они призывают к более участительным и ответственным подходам к работе с данными, чтобы обеспечить более честную и справедливую систему. Третьим основным результатом является появление вызовов для нормативных подходов: практикующие NLP-специалисты выражают интерес к внедрению таких мер, как У.С. AI Bill of Rights, но при этом выделяют необходимость в более широком участии сообщества и более четкой струк
Abstract
While research has focused on surfacing and auditing algorithmic bias to
ensure equitable AI development, less is known about how NLP practitioners -
those directly involved in dataset development, annotation, and deployment -
perceive and navigate issues of NLP data equity. This study is among the first
to center practitioners' perspectives, linking their experiences to a
multi-scalar AI governance framework and advancing participatory
recommendations that bridge technical, policy, and community domains. Drawing
on a 2024 questionnaire and focus group, we examine how U.S.-based NLP data
practitioners conceptualize fairness, contend with organizational and systemic
constraints, and engage emerging governance efforts such as the U.S. AI Bill of
Rights. Findings reveal persistent tensions between commercial objectives and
equity commitments, alongside calls for more participatory and accountable data
workflows. We critically engage debates on data diversity and diversity
washing, arguing that improving NLP equity requires structural governance
reforms that support practitioner agency and community consent.
Ссылки и действия
Дополнительные ресурсы: