Who Gets Left Behind? Auditing Disability Inclusivity in Large Language Models

2509.00963v1 cs.CY, cs.AI 2025-09-05

Авторы:

Deepika Dash, Yeshil Bangera, Mithil Bangera, Gouthami Vadithya, Srikant Panda

Резюме на русском

## Контекст Large Language Models (LLMs) представляют собой мощные инструменты, применяемые в различных областях, включая доступность и улучшение возможностей людей с ограниченными возможностями. Тем не менее, несмотря на их широкий применение, многие группы с ограниченными возможностями остаются за пределами достаточного покрытия их потребностей. Это связано с тем, что модели часто не учитывают все различные аспекты и специфику различных форм инвалидности. Это приводит к глубоким недостаткам в их работе в сфере доступности. Одним из ключевых вопросов является оценка того, какие группы с ограниченными возможностями остаются за спиной в текущих моделях, и как их можно исправить. ## Метод Для получения более полной картины обстоятельств, была разработана конкретная методология. Она включала разработку категорий вопросов, которые могут быть заданы моделям для оценки их удовлетворяемости потребностям людей с ограниченными возможностями. Эти вопросы были разработаны с учетом различных форм инвалидности, включая зрение, слух, мобильность, говорение и другие. Была также разработана методика для оценки длины и глубины ответов моделей на эти вопросы. Это позволило выявить степень достаточности поддержки специфичных групп, а также определить области, где модели имеют самые сильные недостатки. ## Результаты Применение этой методологии к 17 моделям LLM, включая отечественные и зарубежные, показало значительные различия в степени поддержки различных видов инвалидности. Например, группы с зрением, слухом и мобильностью были достаточно хорошо охвачены, но группы с генетической и развивающейся инвалидностью, а также с психическими расстройствами, оставались за спиной. Также было замечено, что ответы моделей часто не хватало глубины и конкретности для полного удовлетворения потребностей. ## Значимость Это исследование имеет значительное значение для улучшения доступности и инклюзивности в контексте технологий машинного обучения. Оно позволяет выявить ключевые проблемы в текущих моделях и предлагает стратегии для их решения. Например, модели могут быть обучены с учетом различных форм инвалидности, и их можно протестировать на соответствии различным категориям. Это также может способствовать созданию более вовлеченных и эффективных систем помощи для людей с ограниченными возможностями. ## Выводы В ходе исследования были выявлены значительные проблемы с глубиной и балансом в поддержке различных форм инвалидности в текущих моделях LLM. На основании этих результатов были сформулированы рекомендаци

Abstract

Large Language Models (LLMs) are increasingly used for accessibility guidance, yet many disability groups remain underserved by their advice. To address this gap, we present taxonomy aligned benchmark1 of human validated, general purpose accessibility questions, designed to systematically audit inclusivity across disabilities. Our benchmark evaluates models along three dimensions: Question-Level Coverage (breadth within answers), Disability-Level Coverage (balance across nine disability categories), and Depth (specificity of support). Applying this framework to 17 proprietary and open-weight models reveals persistent inclusivity gaps: Vision, Hearing, and Mobility are frequently addressed, while Speech, Genetic/Developmental, Sensory-Cognitive, and Mental Health remain under served. Depth is similarly concentrated in a few categories but sparse elsewhere. These findings reveal who gets left behind in current LLM accessibility guidance and highlight actionable levers: taxonomy-aware prompting/training and evaluations that jointly audit breadth, balance, and depth.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Who Gets Left Behind? Auditing Disability Inclusivity in Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Humanity in the Age of AI: Reassessing 2025's Existential-Risk Narratives

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Fro...

Artificial Intelligence / Human Intelligence: Who Controls Whom?

First, do NOHARM: towards clinically safe large language models

AI-Driven Document Redaction in UK Public Authorities: Implementation Gaps, Regu...

Навигация