📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Masudul Hasan Masud Bhuiyan, Matteo Varvello, Yasir Zaki, Cristian-Alexandru Staicu

## Контекст В современном мире Интернет является одним из основных источников информации и связи. Несмотря на то, что English является наиболее популярным языком в сети, в последние годы всё больше сайтов начинают использовать несколько языков в своём содержимом, включая скрытые метаданные. Этот многоязычный подход позволяет сайтам лучше адаптироваться к разным региональным и культурным аудиториям. Однако, данный подход не без проблем. Особенно заметно это в случае пользователей с визуальными нарушениями, которые поreживают дополнительные сложности при помощи специальных технологий, таких как скринридеры. Эти технологии часто не могут корректно обработать текст, написанный на неизвестных им языках или с нелатинскими символами, что приводит к проблемам с доступностью. Несмотря на важность данной проблемы, пока что не было проведено полномасштабных исследований, которые бы отражали объёмную картину проблемы. ## Метод Для изучения этой проблемы было разработано датасет LangCrUX, включающее 120,000 популярных сайтов из 12 языковых зон, в основном использующих нелатинские символы. Используя это датасет, авторы выполнили тщательный анализ доступности многоязычных веб-страниц. Они рассмотрели вопросы, связанные с недостатком соответствия между языком видимого содержимого и языком метаданных, в том числе тегов HTML, описывающих страницу. Также были рассмотрены различные способы кодирования текста, что может повлиять на то, как скринридеры интерпретируют многоязычный текст. ## Результаты Исследование показало, что многие сайты не соответствуют стандартам доступности, особенно в случае многоязычного содержимого. Проблема в том, что метаданные и теги HTML часто не отражают тот факт, что на странице может быть текст на разных языках. Это приводит к тому, что скринридеры не могут корректно интерпретировать текст, что в свою очередь создаёт дополнительные барьеры для пользователей с визуальными нарушениями. В частности, было выявлено, что некоторые сайты используют несовместимые кодировки, что может привести к неполной или неверной интерпретации текста. ## Значимость Результаты этого исследования имеют значение для разработчиков веб-сайтов, технологий доступности и пользователей с визуальными нарушениями. Данные находки могут помочь в улучшении существующих систем доступности, в том числе скринридеров и других технологий, которые помогают пользователям с ограниченными возможностями. Также, выявленные проблемы могут способствовать развитию международного доступа к информации в Ин
Annotation:
English is the predominant language on the web, powering nearly half of the world's top ten million websites. Support for multilingual content is nevertheless growing, with many websites increasingly combining English with regional or native languages in both visible content and hidden metadata. This multilingualism introduces significant barriers for users with visual impairments, as assistive technologies like screen readers frequently lack robust support for non-Latin scripts and misrender or...
ID: 2508.18328v1 cs.CL, cs.CY, cs.NI