Not All Visitors are Bilingual: A Measurement Study of the Multilingual Web from an Accessibility Perspective
2508.18328v1
cs.CL, cs.CY, cs.NI
2025-08-28
Авторы:
Masudul Hasan Masud Bhuiyan, Matteo Varvello, Yasir Zaki, Cristian-Alexandru Staicu
Резюме на русском
## Контекст
В современном мире Интернет является одним из основных источников информации и связи. Несмотря на то, что English является наиболее популярным языком в сети, в последние годы всё больше сайтов начинают использовать несколько языков в своём содержимом, включая скрытые метаданные. Этот многоязычный подход позволяет сайтам лучше адаптироваться к разным региональным и культурным аудиториям. Однако, данный подход не без проблем. Особенно заметно это в случае пользователей с визуальными нарушениями, которые поreживают дополнительные сложности при помощи специальных технологий, таких как скринридеры. Эти технологии часто не могут корректно обработать текст, написанный на неизвестных им языках или с нелатинскими символами, что приводит к проблемам с доступностью. Несмотря на важность данной проблемы, пока что не было проведено полномасштабных исследований, которые бы отражали объёмную картину проблемы.
## Метод
Для изучения этой проблемы было разработано датасет LangCrUX, включающее 120,000 популярных сайтов из 12 языковых зон, в основном использующих нелатинские символы. Используя это датасет, авторы выполнили тщательный анализ доступности многоязычных веб-страниц. Они рассмотрели вопросы, связанные с недостатком соответствия между языком видимого содержимого и языком метаданных, в том числе тегов HTML, описывающих страницу. Также были рассмотрены различные способы кодирования текста, что может повлиять на то, как скринридеры интерпретируют многоязычный текст.
## Результаты
Исследование показало, что многие сайты не соответствуют стандартам доступности, особенно в случае многоязычного содержимого. Проблема в том, что метаданные и теги HTML часто не отражают тот факт, что на странице может быть текст на разных языках. Это приводит к тому, что скринридеры не могут корректно интерпретировать текст, что в свою очередь создаёт дополнительные барьеры для пользователей с визуальными нарушениями. В частности, было выявлено, что некоторые сайты используют несовместимые кодировки, что может привести к неполной или неверной интерпретации текста.
## Значимость
Результаты этого исследования имеют значение для разработчиков веб-сайтов, технологий доступности и пользователей с визуальными нарушениями. Данные находки могут помочь в улучшении существующих систем доступности, в том числе скринридеров и других технологий, которые помогают пользователям с ограниченными возможностями. Также, выявленные проблемы могут способствовать развитию международного доступа к информации в Ин
Abstract
English is the predominant language on the web, powering nearly half of the
world's top ten million websites. Support for multilingual content is
nevertheless growing, with many websites increasingly combining English with
regional or native languages in both visible content and hidden metadata. This
multilingualism introduces significant barriers for users with visual
impairments, as assistive technologies like screen readers frequently lack
robust support for non-Latin scripts and misrender or mispronounce non-English
text, compounding accessibility challenges across diverse linguistic contexts.
Yet, large-scale studies of this issue have been limited by the lack of
comprehensive datasets on multilingual web content. To address this gap, we
introduce LangCrUX, the first large-scale dataset of 120,000 popular websites
across 12 languages that primarily use non-Latin scripts. Leveraging this
dataset, we conduct a systematic analysis of multilingual web accessibility and
uncover widespread neglect of accessibility hints. We find that these hints
often fail to reflect the language diversity of visible content, reducing the
effectiveness of screen readers and limiting web accessibility. We finally
propose Kizuki, a language-aware automated accessibility testing extension to
account for the limited utility of language-inconsistent accessibility hints.
Ссылки и действия
Дополнительные ресурсы: