Bangla-Bayanno: A 52K-Pair Bengali Visual Question Answering Dataset with LLM-Assisted Translation Refinement

2508.19887v1 cs.CL, cs.CV 2025-08-29

Авторы:

Mohammed Rakibul Hasan, Rafi Majid, Ahanaf Tahmid

Резюме на русском

## Контекст В последние годы искусственный интеллект (ИИ) находится в центре внимания широкого спектра научных и практических задач. Одна из самых затруднительных областей — многомодальное обучение (multimodal learning), которая предполагает обработку и анализ данных, имеющих различные модальности (текст, изображения, звук). Одна из важных задач в этой области — визуальный вопросно-ответный анализ (Visual Question Answering, VQA). Однако существующие VQA-датасеты часто страдают от ограниченного числа ответов, проблем с качеством перевода или же сильно ограничены конкретными языками. Для низкоресурсных языков, таких как бенгальский (Bangla), отсутствуют качественные датасеты, что существенно ограничивает их применение в ИИ. Было решено создать датасет Bangla-Bayanno, опираясь на цель создания высококачественной, высокопокрытой и открытого доступа VQA-датасета для бенгальского языка. ## Метод Для создания датасета Bangla-Bayanno использовалась многоэтапная методология. На первом этапе проводился сбор изображений с открытых источников (таких как Flickr и COCO). Затем проводился предварительный анализ изображений для определения подходящих вопросов. На следующем этапе создавались вопросы и ответы, которые были проверены и исправлены с помощью многоязычного LL-системы (Large Language Model). Это позволило избежать ошибок, присущих ручному переводу, и обеспечить высокое качество аннотаций. Были созданы три класса ответов: nominal (короткие описательные), quantitative (численные) и polar (да/нет). Результатом является датасет, состоящий из 52,650 вопросов-ответов для 4750+ изображений. ## Результаты В результате работы был создан Bangla-Bayanno — датасет, содержащий 52,650 вопросов-ответов для 4750+ изображений с классификацией ответов. Этапы сбора и преобразования данных позволили обеспечить высокое качество данных. Было проведено несколько экспериментов, включая оценку качества перевода и точности ответов, которые показали высокую точность и степень точности. Эти результаты подтверждают эффективность и качество датасета. ## Значимость Bangla-Bayanno является открытым и доступным датасетом, предназначенным для развития ИИ в низкоресурсных языках. Его значимость заключается в том, что он предлагает высококачественный Бенгальский VQA-датасет, который может быть использован для развития многомодальных систем. Его применение может помочь в развитии ИИ для низкоресурсных языков, улучшение точности визуального анализа и стимулировать дальнейшие исследования в области многомодального обучения. ## Выводы В результате работы был создан Bangla-Bayanno, что является совершенным ресу

Abstract

In this paper, we introduce Bangla-Bayanno, an open-ended Visual Question Answering (VQA) Dataset in Bangla, a widely used, low-resource language in multimodal AI research. The majority of existing datasets are either manually annotated with an emphasis on a specific domain, query type, or answer type or are constrained by niche answer formats. In order to mitigate human-induced errors and guarantee lucidity, we implemented a multilingual LLM-assisted translation refinement pipeline. This dataset overcomes the issues of low-quality translations from multilingual sources. The dataset comprises 52,650 question-answer pairs across 4750+ images. Questions are classified into three distinct answer types: nominal (short descriptive), quantitative (numeric), and polar (yes/no). Bangla-Bayanno provides the most comprehensive open-source, high-quality VQA benchmark in Bangla, aiming to advance research in low-resource multimodal learning and facilitate the development of more inclusive AI systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Bangla-Bayanno: A 52K-Pair Bengali Visual Question Answering Dataset with LLM-Assisted Translation Refinement

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Visual Puns from Idioms: An Iterative LLM-T2IM-MLLM Framework

Optimizing Multimodal Language Models through Attention-based Interpretability

Bangla Sign Language Translation: Dataset Creation Challenges, Benchmarking and ...

Do Vision-Language Models Understand Visual Persuasiveness?

Arctic-Extract Technical Report

Навигация