Bangla-Bayanno: A 52K-Pair Bengali Visual Question Answering Dataset with LLM-Assisted Translation Refinement
2508.19887v1
cs.CL, cs.CV
2025-08-29
Авторы:
Mohammed Rakibul Hasan, Rafi Majid, Ahanaf Tahmid
Резюме на русском
## Контекст
В последние годы искусственный интеллект (ИИ) находится в центре внимания широкого спектра научных и практических задач. Одна из самых затруднительных областей — многомодальное обучение (multimodal learning), которая предполагает обработку и анализ данных, имеющих различные модальности (текст, изображения, звук). Одна из важных задач в этой области — визуальный вопросно-ответный анализ (Visual Question Answering, VQA). Однако существующие VQA-датасеты часто страдают от ограниченного числа ответов, проблем с качеством перевода или же сильно ограничены конкретными языками. Для низкоресурсных языков, таких как бенгальский (Bangla), отсутствуют качественные датасеты, что существенно ограничивает их применение в ИИ. Было решено создать датасет Bangla-Bayanno, опираясь на цель создания высококачественной, высокопокрытой и открытого доступа VQA-датасета для бенгальского языка.
## Метод
Для создания датасета Bangla-Bayanno использовалась многоэтапная методология. На первом этапе проводился сбор изображений с открытых источников (таких как Flickr и COCO). Затем проводился предварительный анализ изображений для определения подходящих вопросов. На следующем этапе создавались вопросы и ответы, которые были проверены и исправлены с помощью многоязычного LL-системы (Large Language Model). Это позволило избежать ошибок, присущих ручному переводу, и обеспечить высокое качество аннотаций. Были созданы три класса ответов: nominal (короткие описательные), quantitative (численные) и polar (да/нет). Результатом является датасет, состоящий из 52,650 вопросов-ответов для 4750+ изображений.
## Результаты
В результате работы был создан Bangla-Bayanno — датасет, содержащий 52,650 вопросов-ответов для 4750+ изображений с классификацией ответов. Этапы сбора и преобразования данных позволили обеспечить высокое качество данных. Было проведено несколько экспериментов, включая оценку качества перевода и точности ответов, которые показали высокую точность и степень точности. Эти результаты подтверждают эффективность и качество датасета.
## Значимость
Bangla-Bayanno является открытым и доступным датасетом, предназначенным для развития ИИ в низкоресурсных языках. Его значимость заключается в том, что он предлагает высококачественный Бенгальский VQA-датасет, который может быть использован для развития многомодальных систем. Его применение может помочь в развитии ИИ для низкоресурсных языков, улучшение точности визуального анализа и стимулировать дальнейшие исследования в области многомодального обучения.
## Выводы
В результате работы был создан Bangla-Bayanno, что является совершенным ресу
Abstract
In this paper, we introduce Bangla-Bayanno, an open-ended Visual Question
Answering (VQA) Dataset in Bangla, a widely used, low-resource language in
multimodal AI research. The majority of existing datasets are either manually
annotated with an emphasis on a specific domain, query type, or answer type or
are constrained by niche answer formats. In order to mitigate human-induced
errors and guarantee lucidity, we implemented a multilingual LLM-assisted
translation refinement pipeline. This dataset overcomes the issues of
low-quality translations from multilingual sources. The dataset comprises
52,650 question-answer pairs across 4750+ images. Questions are classified into
three distinct answer types: nominal (short descriptive), quantitative
(numeric), and polar (yes/no). Bangla-Bayanno provides the most comprehensive
open-source, high-quality VQA benchmark in Bangla, aiming to advance research
in low-resource multimodal learning and facilitate the development of more
inclusive AI systems.
Ссылки и действия
Дополнительные ресурсы: