📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Umair Hassan
#### Контекст
Urdu, язык, говорящий его более 250 миллионов человек, остается критически недоосвещенным в области мультимодальных исследований и обработки естественного языка. Отсутствие крупных, высококачественных данных ставит препятствия в развитии систем, ориентированных на этот язык, и укрепляет биазы в многоязычных моделях визионного языкового моделирования, которые в основном тренируются на высокоресурсных языках. Для устранения этого недостатка мы предлагаем COCO-Urdu — крупнейший доступный для общественности датасет с изображениями и описаниями на языке урду, полученный из MS COCO. Он содержит 59 000 изображений и 319 000 картинок на языке урду, выбранных стратифицированным выбором для сохранения оригинального распределения.
#### Метод
COCO-Urdu был создан с использованием SeamlessM4T v2 для перевода картинок с языка английского на урду. Процесс включал в себя несколько шагов качественной оценки. Мы использовали COMET-Kiwi для оценки качества перевода, CLIP для визуального анкеринга, а также BERTScore с обратным переводом для измерения семантического согласованности. Низкокачественные записи были исправлены с помощью открытого доступного языкового моделирования. Мы также провели бенчмарк для COCO-Urdu, используя BLEU, SacreBLEU и chrF, что подтвердило высокую точность и качество датасета.
#### Результаты
COCO-Urdu представляет собой крупномасштабный датасет с изображениями и описаниями на языке урду. Он был проверен на нескольких метриках качества, включая BLEU, SacreBLEU и chrF, и показал высокую точность. Это датасет гарантирует возможность развития урду-ориентированных визуально-языковых моделей и снижает имеющиеся биазы в мультиязычных моделях, которые, как правило, ориентированы на высокоресурсные языки.
#### Значимость
COCO-Urdu может быть применен в различных мультимодальных задачах, таких как описание изображений, вопрос-ответ, и генерация языка. Его преимущество в том, что он снижает языковые биазы в мультиязычных моделях, обеспечивая более включительные и точные результаты. Этот датасет может способствовать развитию инклюзивных визуально-языковых систем, которые будут учитывать необходимость включения менее ресурсных языков, таких как урду.
#### Выводы
COCO-Urdu является крупнейшим, доступным для общественности датасетом с изображениями и описаниями на языке урду. Мы также предоставили качественную оценку методики, чтобы помочь в повышении качества перевода. Наша работа определяет направления для будущих исследований в области мультимадального MODELLING на менее ресурсных языках, стремясь
Annotation:
Urdu, spoken by over 250 million people, remains critically under-served in
multimodal and vision-language research. The absence of large-scale,
high-quality datasets has limited the development of Urdu-capable systems and
reinforced biases in multilingual vision-language models trained primarily on
high-resource languages. To address this gap, we present COCO-Urdu, a
large-scale image-caption dataset derived from MS COCO, containing 59,000
images and 319,000 Urdu captions selected through strat...