📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 COCO-Urdu: A Large-Scale Urdu Image-Caption Dataset with Multimodal Quality Estimation

2025-09-13

Авторы:

Umair Hassan

#### Контекст Urdu, язык, говорящий его более 250 миллионов человек, остается критически недоосвещенным в области мультимодальных исследований и обработки естественного языка. Отсутствие крупных, высококачественных данных ставит препятствия в развитии систем, ориентированных на этот язык, и укрепляет биазы в многоязычных моделях визионного языкового моделирования, которые в основном тренируются на высокоресурсных языках. Для устранения этого недостатка мы предлагаем COCO-Urdu — крупнейший доступный для общественности датасет с изображениями и описаниями на языке урду, полученный из MS COCO. Он содержит 59 000 изображений и 319 000 картинок на языке урду, выбранных стратифицированным выбором для сохранения оригинального распределения. #### Метод COCO-Urdu был создан с использованием SeamlessM4T v2 для перевода картинок с языка английского на урду. Процесс включал в себя несколько шагов качественной оценки. Мы использовали COMET-Kiwi для оценки качества перевода, CLIP для визуального анкеринга, а также BERTScore с обратным переводом для измерения семантического согласованности. Низкокачественные записи были исправлены с помощью открытого доступного языкового моделирования. Мы также провели бенчмарк для COCO-Urdu, используя BLEU, SacreBLEU и chrF, что подтвердило высокую точность и качество датасета. #### Результаты COCO-Urdu представляет собой крупномасштабный датасет с изображениями и описаниями на языке урду. Он был проверен на нескольких метриках качества, включая BLEU, SacreBLEU и chrF, и показал высокую точность. Это датасет гарантирует возможность развития урду-ориентированных визуально-языковых моделей и снижает имеющиеся биазы в мультиязычных моделях, которые, как правило, ориентированы на высокоресурсные языки. #### Значимость COCO-Urdu может быть применен в различных мультимодальных задачах, таких как описание изображений, вопрос-ответ, и генерация языка. Его преимущество в том, что он снижает языковые биазы в мультиязычных моделях, обеспечивая более включительные и точные результаты. Этот датасет может способствовать развитию инклюзивных визуально-языковых систем, которые будут учитывать необходимость включения менее ресурсных языков, таких как урду. #### Выводы COCO-Urdu является крупнейшим, доступным для общественности датасетом с изображениями и описаниями на языке урду. Мы также предоставили качественную оценку методики, чтобы помочь в повышении качества перевода. Наша работа определяет направления для будущих исследований в области мультимадального MODELLING на менее ресурсных языках, стремясь

Annotation:

Urdu, spoken by over 250 million people, remains critically under-served in multimodal and vision-language research. The absence of large-scale, high-quality datasets has limited the development of Urdu-capable systems and reinforced biases in multilingual vision-language models trained primarily on high-resource languages. To address this gap, we present COCO-Urdu, a large-scale image-caption dataset derived from MS COCO, containing 59,000 images and 319,000 Urdu captions selected through strat...

ID: 2509.09014v1 cs.CV, cs.CL, 68T45 (Primary) 68T50 (Secondary)

arXiv PDF