Not All Visitors are Bilingual: A Measurement Study of the Multilingual Web from an Accessibility Perspective

2508.18328v1 cs.CL, cs.CY, cs.NI 2025-08-28
Авторы:

Masudul Hasan Masud Bhuiyan, Matteo Varvello, Yasir Zaki, Cristian-Alexandru Staicu

Резюме на русском

## Контекст В современном мире Интернет является одним из основных источников информации и связи. Несмотря на то, что English является наиболее популярным языком в сети, в последние годы всё больше сайтов начинают использовать несколько языков в своём содержимом, включая скрытые метаданные. Этот многоязычный подход позволяет сайтам лучше адаптироваться к разным региональным и культурным аудиториям. Однако, данный подход не без проблем. Особенно заметно это в случае пользователей с визуальными нарушениями, которые поreживают дополнительные сложности при помощи специальных технологий, таких как скринридеры. Эти технологии часто не могут корректно обработать текст, написанный на неизвестных им языках или с нелатинскими символами, что приводит к проблемам с доступностью. Несмотря на важность данной проблемы, пока что не было проведено полномасштабных исследований, которые бы отражали объёмную картину проблемы. ## Метод Для изучения этой проблемы было разработано датасет LangCrUX, включающее 120,000 популярных сайтов из 12 языковых зон, в основном использующих нелатинские символы. Используя это датасет, авторы выполнили тщательный анализ доступности многоязычных веб-страниц. Они рассмотрели вопросы, связанные с недостатком соответствия между языком видимого содержимого и языком метаданных, в том числе тегов HTML, описывающих страницу. Также были рассмотрены различные способы кодирования текста, что может повлиять на то, как скринридеры интерпретируют многоязычный текст. ## Результаты Исследование показало, что многие сайты не соответствуют стандартам доступности, особенно в случае многоязычного содержимого. Проблема в том, что метаданные и теги HTML часто не отражают тот факт, что на странице может быть текст на разных языках. Это приводит к тому, что скринридеры не могут корректно интерпретировать текст, что в свою очередь создаёт дополнительные барьеры для пользователей с визуальными нарушениями. В частности, было выявлено, что некоторые сайты используют несовместимые кодировки, что может привести к неполной или неверной интерпретации текста. ## Значимость Результаты этого исследования имеют значение для разработчиков веб-сайтов, технологий доступности и пользователей с визуальными нарушениями. Данные находки могут помочь в улучшении существующих систем доступности, в том числе скринридеров и других технологий, которые помогают пользователям с ограниченными возможностями. Также, выявленные проблемы могут способствовать развитию международного доступа к информации в Ин

Abstract

English is the predominant language on the web, powering nearly half of the world's top ten million websites. Support for multilingual content is nevertheless growing, with many websites increasingly combining English with regional or native languages in both visible content and hidden metadata. This multilingualism introduces significant barriers for users with visual impairments, as assistive technologies like screen readers frequently lack robust support for non-Latin scripts and misrender or mispronounce non-English text, compounding accessibility challenges across diverse linguistic contexts. Yet, large-scale studies of this issue have been limited by the lack of comprehensive datasets on multilingual web content. To address this gap, we introduce LangCrUX, the first large-scale dataset of 120,000 popular websites across 12 languages that primarily use non-Latin scripts. Leveraging this dataset, we conduct a systematic analysis of multilingual web accessibility and uncover widespread neglect of accessibility hints. We find that these hints often fail to reflect the language diversity of visible content, reducing the effectiveness of screen readers and limiting web accessibility. We finally propose Kizuki, a language-aware automated accessibility testing extension to account for the limited utility of language-inconsistent accessibility hints.

Ссылки и действия