MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs

2508.05502v1 cs.CV, cs.CL 2025-08-09
Авторы:

Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi

Резюме на русском

**Резюме** Многоязычные большие языковые модели (МЛЛМ) доказали свою эффективность в высокоресурсных языках, но в низкоресурсных языках их эффективность значительно снижается. Существующие подходы к улучшению многоязычности часто ограничиваются текстовыми данными или полагаются лишь на перевод машинным переводом. Эти методы способствуют развитию базовых языковых навыков, но не учитывают важность мультимодальности и культурного контекста, которые критически важны для поддержки низкоресурсных языков. В статье предлагается MELLA — мультимодальный многоязычный датасет, созданный для решения проблемы нехватки культурной осведомлённости и навыков работы с текстом в МЛЛМ. Данный датасет собирает сведения из сети (нативный web alt-text для культурной глубины и MLLM-генерируемые капшны для развития языковых навыков). Исследование показало, что после тюнинга на MELLA модели показывают улучшение по всему спектру задач, включая продуктивность в "толстых описаниях", благодаря улучшению как языковых навыков, так и культурной осведомлённости. Наши результаты свидетельствуют о важности сочетания этих двух параметров для эффективной работы МЛЛМ в низкоресурсных языках. Датасет доступен по адресу https://opendatalab.com/applyMultilingualCorpus.

Abstract

Multimodal Large Language Models (MLLMs) have shown remarkable performance in high-resource languages. However, their effectiveness diminishes significantly in the contexts of low-resource languages. Current multilingual enhancement methods are often limited to text modality or rely solely on machine translation. While such approaches help models acquire basic linguistic capabilities and produce "thin descriptions", they neglect the importance of multimodal informativeness and cultural groundedness, both of which are crucial for serving low-resource language users effectively. To bridge this gap, in this study, we identify two significant objectives for a truly effective MLLM in low-resource language settings, namely 1) linguistic capability and 2) cultural groundedness, placing special emphasis on cultural awareness. To achieve these dual objectives, we propose a dual-source strategy that guides the collection of data tailored to each goal, sourcing native web alt-text for culture and MLLM-generated captions for linguistics. As a concrete implementation, we introduce MELLA, a multimodal, multilingual dataset. Experiment results show that after fine-tuning on MELLA, there is a general performance improvement for the eight languages on various MLLM backbones, with models producing "thick descriptions". We verify that the performance gains are from both cultural knowledge enhancement and linguistic capability enhancement. Our dataset can be found at https://opendatalab.com/applyMultilingualCorpus.

Ссылки и действия