Grounding Multilingual Multimodal LLMs With Cultural Knowledge
2508.07414v2
cs.CL, cs.LG
2025-08-13
Авторы:
Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, Graham Neubig
Резюме на русском
## Контекст
В последние годы технологии многоязычных эллиптичных текстов (LLMs) постепенно вносят изменения в области искусственного интеллекта. Однако существуют заметные проблемы, особенно в сфере многомодальных моделей. Эти модели часто сталкиваются с трудностями при работе с редкими культурными сущностями, поскольку им недостаточно культурной информации для точного понимания и интерпретации. Это приводит к ошибкам в обработке информации в низкоресурсных языках и культурах, что снижает доверие к подобным системам.
Причина этого заключается в том, что многие многомодальные модели обучаются на ограниченном количестве данных, которые часто не представляют собой полное или точное представление реального мира. Это особенно важно в контексте культурных сущностей, так как понимание культурных традиций, символов и терминов необходимо для точного интерпретирования ими модели.
Мотивация для этого исследования лежит в том, чтобы улучшить модели таким образом, чтобы они могли более точно интерпретировать культурные сущности и работать эффективно в низкоресурсных средах. Это является ключевым шагом для создания более включающих и универсальных многомодальных систем.
## Метод
Чтобы улучшить точность интерпретации культурных сущностей, авторы предлагают ввести систему, которая позволяет моделям более глубоко понимать культурные явления. Основной идеей является создание целых культурных знаний, которые машина могла бы использовать для понимания интерпретации редких культурных сущностей.
В этой работе используется большой граф культурных данных, полученный из Wikidata. Этот граф позволяет собирать изображения, представляющие культурные сущности, а также генерировать синтетические данные для визуальных задач вопросов-ответов (VQA). Эти данные построены таким образом, чтобы включать различные культурные сущности из разных стран и языков.
Основная методика состоит в использовании многоязычных данных для тренировки модели, что позволяет модели не только работать с визуальными данными, но и понимать текст в разных языках. Это позволяет модели добиться более широкого спектра интерпретаций, учитывая как визуальные, так и текстовые аспекты культурных сущностей.
## Результаты
Для экспериментов использовались различные многоязычные базы данных, включая данные из Wikidata и синтетические данные VQA. Эксперименты показали, что модель, обученная на этих данных, показала значительные улучшения в понимании культурных сущностей по сравнению с предыдущими моделями.
В частности, модель существенно улучшила свои резуль
Abstract
Multimodal Large Language Models excel in high-resource settings, but often
misinterpret long-tail cultural entities and underperform in low-resource
languages. To address this gap, we propose a data-centric approach that
directly grounds MLLMs in cultural knowledge. Leveraging a large scale
knowledge graph from Wikidata, we collect images that represent culturally
significant entities, and generate synthetic multilingual visual question
answering data. The resulting dataset, CulturalGround, comprises 22 million
high-quality, culturally-rich VQA pairs spanning 42 countries and 39 languages.
We train an open-source MLLM CulturalPangea on CulturalGround, interleaving
standard multilingual instruction-tuning data to preserve general abilities.
CulturalPangea achieves state-of-the-art performance among open models on
various culture-focused multilingual multimodal benchmarks, outperforming prior
models by an average of 5.0 without degrading results on mainstream
vision-language tasks. Our findings show that our targeted, culturally grounded
approach could substantially narrow the cultural gap in MLLMs and offer a
practical path towards globally inclusive multimodal systems.
Ссылки и действия
Дополнительные ресурсы: