COCO-Urdu: A Large-Scale Urdu Image-Caption Dataset with Multimodal Quality Estimation
2509.09014v1
cs.CV, cs.CL, 68T45 (Primary) 68T50 (Secondary)
2025-09-13
Авторы:
Umair Hassan
Резюме на русском
#### Контекст
Urdu, язык, говорящий его более 250 миллионов человек, остается критически недоосвещенным в области мультимодальных исследований и обработки естественного языка. Отсутствие крупных, высококачественных данных ставит препятствия в развитии систем, ориентированных на этот язык, и укрепляет биазы в многоязычных моделях визионного языкового моделирования, которые в основном тренируются на высокоресурсных языках. Для устранения этого недостатка мы предлагаем COCO-Urdu — крупнейший доступный для общественности датасет с изображениями и описаниями на языке урду, полученный из MS COCO. Он содержит 59 000 изображений и 319 000 картинок на языке урду, выбранных стратифицированным выбором для сохранения оригинального распределения.
#### Метод
COCO-Urdu был создан с использованием SeamlessM4T v2 для перевода картинок с языка английского на урду. Процесс включал в себя несколько шагов качественной оценки. Мы использовали COMET-Kiwi для оценки качества перевода, CLIP для визуального анкеринга, а также BERTScore с обратным переводом для измерения семантического согласованности. Низкокачественные записи были исправлены с помощью открытого доступного языкового моделирования. Мы также провели бенчмарк для COCO-Urdu, используя BLEU, SacreBLEU и chrF, что подтвердило высокую точность и качество датасета.
#### Результаты
COCO-Urdu представляет собой крупномасштабный датасет с изображениями и описаниями на языке урду. Он был проверен на нескольких метриках качества, включая BLEU, SacreBLEU и chrF, и показал высокую точность. Это датасет гарантирует возможность развития урду-ориентированных визуально-языковых моделей и снижает имеющиеся биазы в мультиязычных моделях, которые, как правило, ориентированы на высокоресурсные языки.
#### Значимость
COCO-Urdu может быть применен в различных мультимодальных задачах, таких как описание изображений, вопрос-ответ, и генерация языка. Его преимущество в том, что он снижает языковые биазы в мультиязычных моделях, обеспечивая более включительные и точные результаты. Этот датасет может способствовать развитию инклюзивных визуально-языковых систем, которые будут учитывать необходимость включения менее ресурсных языков, таких как урду.
#### Выводы
COCO-Urdu является крупнейшим, доступным для общественности датасетом с изображениями и описаниями на языке урду. Мы также предоставили качественную оценку методики, чтобы помочь в повышении качества перевода. Наша работа определяет направления для будущих исследований в области мультимадального MODELLING на менее ресурсных языках, стремясь
Abstract
Urdu, spoken by over 250 million people, remains critically under-served in
multimodal and vision-language research. The absence of large-scale,
high-quality datasets has limited the development of Urdu-capable systems and
reinforced biases in multilingual vision-language models trained primarily on
high-resource languages. To address this gap, we present COCO-Urdu, a
large-scale image-caption dataset derived from MS COCO, containing 59,000
images and 319,000 Urdu captions selected through stratified sampling to
preserve the original distribution. Captions were translated using SeamlessM4T
v2 and validated with a hybrid multimodal quality estimation framework that
integrates COMET-Kiwi for translation quality, CLIP-based similarity for visual
grounding, and BERTScore with back-translation for semantic consistency;
low-scoring captions were iteratively refined using open-source large language
models. We further benchmark COCO-Urdu on BLEU, SacreBLEU, and chrF, reporting
consistently strong results. To the best of our knowledge, COCO-Urdu is the
largest publicly available Urdu captioning dataset. By releasing both the
dataset and the quality estimation pipeline, we aim to reduce language bias in
multimodal research and establish a foundation for inclusive vision-language
systems.