MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs
2508.05502v1
cs.CV, cs.CL
2025-08-09
Авторы:
Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi
Резюме на русском
**Резюме**
Многоязычные большие языковые модели (МЛЛМ) доказали свою эффективность в высокоресурсных языках, но в низкоресурсных языках их эффективность значительно снижается. Существующие подходы к улучшению многоязычности часто ограничиваются текстовыми данными или полагаются лишь на перевод машинным переводом. Эти методы способствуют развитию базовых языковых навыков, но не учитывают важность мультимодальности и культурного контекста, которые критически важны для поддержки низкоресурсных языков.
В статье предлагается MELLA — мультимодальный многоязычный датасет, созданный для решения проблемы нехватки культурной осведомлённости и навыков работы с текстом в МЛЛМ. Данный датасет собирает сведения из сети (нативный web alt-text для культурной глубины и MLLM-генерируемые капшны для развития языковых навыков). Исследование показало, что после тюнинга на MELLA модели показывают улучшение по всему спектру задач, включая продуктивность в "толстых описаниях", благодаря улучшению как языковых навыков, так и культурной осведомлённости.
Наши результаты свидетельствуют о важности сочетания этих двух параметров для эффективной работы МЛЛМ в низкоресурсных языках. Датасет доступен по адресу https://opendatalab.com/applyMultilingualCorpus.
Abstract
Multimodal Large Language Models (MLLMs) have shown remarkable performance in
high-resource languages. However, their effectiveness diminishes significantly
in the contexts of low-resource languages. Current multilingual enhancement
methods are often limited to text modality or rely solely on machine
translation. While such approaches help models acquire basic linguistic
capabilities and produce "thin descriptions", they neglect the importance of
multimodal informativeness and cultural groundedness, both of which are crucial
for serving low-resource language users effectively. To bridge this gap, in
this study, we identify two significant objectives for a truly effective MLLM
in low-resource language settings, namely 1) linguistic capability and 2)
cultural groundedness, placing special emphasis on cultural awareness. To
achieve these dual objectives, we propose a dual-source strategy that guides
the collection of data tailored to each goal, sourcing native web alt-text for
culture and MLLM-generated captions for linguistics. As a concrete
implementation, we introduce MELLA, a multimodal, multilingual dataset.
Experiment results show that after fine-tuning on MELLA, there is a general
performance improvement for the eight languages on various MLLM backbones, with
models producing "thick descriptions". We verify that the performance gains are
from both cultural knowledge enhancement and linguistic capability enhancement.
Our dataset can be found at https://opendatalab.com/applyMultilingualCorpus.
Ссылки и действия
Дополнительные ресурсы: