Who Gets Left Behind? Auditing Disability Inclusivity in Large Language Models
2509.00963v1
cs.CY, cs.AI
2025-09-05
Авторы:
Deepika Dash, Yeshil Bangera, Mithil Bangera, Gouthami Vadithya, Srikant Panda
Резюме на русском
## Контекст
Large Language Models (LLMs) представляют собой мощные инструменты, применяемые в различных областях, включая доступность и улучшение возможностей людей с ограниченными возможностями. Тем не менее, несмотря на их широкий применение, многие группы с ограниченными возможностями остаются за пределами достаточного покрытия их потребностей. Это связано с тем, что модели часто не учитывают все различные аспекты и специфику различных форм инвалидности. Это приводит к глубоким недостаткам в их работе в сфере доступности. Одним из ключевых вопросов является оценка того, какие группы с ограниченными возможностями остаются за спиной в текущих моделях, и как их можно исправить.
## Метод
Для получения более полной картины обстоятельств, была разработана конкретная методология. Она включала разработку категорий вопросов, которые могут быть заданы моделям для оценки их удовлетворяемости потребностям людей с ограниченными возможностями. Эти вопросы были разработаны с учетом различных форм инвалидности, включая зрение, слух, мобильность, говорение и другие. Была также разработана методика для оценки длины и глубины ответов моделей на эти вопросы. Это позволило выявить степень достаточности поддержки специфичных групп, а также определить области, где модели имеют самые сильные недостатки.
## Результаты
Применение этой методологии к 17 моделям LLM, включая отечественные и зарубежные, показало значительные различия в степени поддержки различных видов инвалидности. Например, группы с зрением, слухом и мобильностью были достаточно хорошо охвачены, но группы с генетической и развивающейся инвалидностью, а также с психическими расстройствами, оставались за спиной. Также было замечено, что ответы моделей часто не хватало глубины и конкретности для полного удовлетворения потребностей.
## Значимость
Это исследование имеет значительное значение для улучшения доступности и инклюзивности в контексте технологий машинного обучения. Оно позволяет выявить ключевые проблемы в текущих моделях и предлагает стратегии для их решения. Например, модели могут быть обучены с учетом различных форм инвалидности, и их можно протестировать на соответствии различным категориям. Это также может способствовать созданию более вовлеченных и эффективных систем помощи для людей с ограниченными возможностями.
## Выводы
В ходе исследования были выявлены значительные проблемы с глубиной и балансом в поддержке различных форм инвалидности в текущих моделях LLM. На основании этих результатов были сформулированы рекомендаци
Abstract
Large Language Models (LLMs) are increasingly used for accessibility
guidance, yet many disability groups remain underserved by their advice. To
address this gap, we present taxonomy aligned benchmark1 of human validated,
general purpose accessibility questions, designed to systematically audit
inclusivity across disabilities. Our benchmark evaluates models along three
dimensions: Question-Level Coverage (breadth within answers), Disability-Level
Coverage (balance across nine disability categories), and Depth (specificity of
support). Applying this framework to 17 proprietary and open-weight models
reveals persistent inclusivity gaps: Vision, Hearing, and Mobility are
frequently addressed, while Speech, Genetic/Developmental, Sensory-Cognitive,
and Mental Health remain under served. Depth is similarly concentrated in a few
categories but sparse elsewhere. These findings reveal who gets left behind in
current LLM accessibility guidance and highlight actionable levers:
taxonomy-aware prompting/training and evaluations that jointly audit breadth,
balance, and depth.
Ссылки и действия
Дополнительные ресурсы: