Grounding Multilingual Multimodal LLMs With Cultural Knowledge

2508.07414v2 cs.CL, cs.LG 2025-08-13

Авторы:

Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, Graham Neubig

Резюме на русском

## Контекст В последние годы технологии многоязычных эллиптичных текстов (LLMs) постепенно вносят изменения в области искусственного интеллекта. Однако существуют заметные проблемы, особенно в сфере многомодальных моделей. Эти модели часто сталкиваются с трудностями при работе с редкими культурными сущностями, поскольку им недостаточно культурной информации для точного понимания и интерпретации. Это приводит к ошибкам в обработке информации в низкоресурсных языках и культурах, что снижает доверие к подобным системам. Причина этого заключается в том, что многие многомодальные модели обучаются на ограниченном количестве данных, которые часто не представляют собой полное или точное представление реального мира. Это особенно важно в контексте культурных сущностей, так как понимание культурных традиций, символов и терминов необходимо для точного интерпретирования ими модели. Мотивация для этого исследования лежит в том, чтобы улучшить модели таким образом, чтобы они могли более точно интерпретировать культурные сущности и работать эффективно в низкоресурсных средах. Это является ключевым шагом для создания более включающих и универсальных многомодальных систем. ## Метод Чтобы улучшить точность интерпретации культурных сущностей, авторы предлагают ввести систему, которая позволяет моделям более глубоко понимать культурные явления. Основной идеей является создание целых культурных знаний, которые машина могла бы использовать для понимания интерпретации редких культурных сущностей. В этой работе используется большой граф культурных данных, полученный из Wikidata. Этот граф позволяет собирать изображения, представляющие культурные сущности, а также генерировать синтетические данные для визуальных задач вопросов-ответов (VQA). Эти данные построены таким образом, чтобы включать различные культурные сущности из разных стран и языков. Основная методика состоит в использовании многоязычных данных для тренировки модели, что позволяет модели не только работать с визуальными данными, но и понимать текст в разных языках. Это позволяет модели добиться более широкого спектра интерпретаций, учитывая как визуальные, так и текстовые аспекты культурных сущностей. ## Результаты Для экспериментов использовались различные многоязычные базы данных, включая данные из Wikidata и синтетические данные VQA. Эксперименты показали, что модель, обученная на этих данных, показала значительные улучшения в понимании культурных сущностей по сравнению с предыдущими моделями. В частности, модель существенно улучшила свои резуль

Abstract

Multimodal Large Language Models excel in high-resource settings, but often misinterpret long-tail cultural entities and underperform in low-resource languages. To address this gap, we propose a data-centric approach that directly grounds MLLMs in cultural knowledge. Leveraging a large scale knowledge graph from Wikidata, we collect images that represent culturally significant entities, and generate synthetic multilingual visual question answering data. The resulting dataset, CulturalGround, comprises 22 million high-quality, culturally-rich VQA pairs spanning 42 countries and 39 languages. We train an open-source MLLM CulturalPangea on CulturalGround, interleaving standard multilingual instruction-tuning data to preserve general abilities. CulturalPangea achieves state-of-the-art performance among open models on various culture-focused multilingual multimodal benchmarks, outperforming prior models by an average of 5.0 without degrading results on mainstream vision-language tasks. Our findings show that our targeted, culturally grounded approach could substantially narrow the cultural gap in MLLMs and offer a practical path towards globally inclusive multimodal systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Grounding Multilingual Multimodal LLMs With Cultural Knowledge

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация