MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints
2508.05429v1
cs.CL, cs.AI
2025-08-09
Авторы:
Zhong Ken Hew, Jia Xin Low, Sze Jue Yang, Chee Seng chan
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
В последнее времение широко распространены Large Language Models (LLMs), которые используются для различных приложений включая генерацию текста, перевод языков, и понимание контекста. Однако, эти модели часто показывают культурные смещения, которые возникают из-за того, что их обучение основано на данных, преимущественно собранных из высоко-ресурсных языков, таких как английский и китайский. Это приводит к недостатку точного представления и оценки разнообразных культурных контекстов, особенно в низко-ресурсных языковых областях. Такие смещения могут приводить к неточному представлению культурных аспектов, что является критическим фактором в многокультурных обществах.
Малайзия, как многокультурная и многоязычная страна, представляет собой отличный пример места, где такие культурные смещения могут проявляться. Однако, существующие бенчмарки для оценки LLMs редко учитывают уникальные культурные аспекты малайзийского контекста, особенно когда речь идет о языке Бахаса Мелайу. Это создает проблему для разработки моделей, которые могут точно понимать и оценивать культурные нюансы в таких областях.
Для решения этой проблемы, авторы предлагают MyCulture, бенчмарк, ориентированный на оценку LLMs в контексте малайзийской культуры. Он охватывает шесть ключевых областей: искусство, одежда, обычаи, развлечения, еда, и религия, представленные на языке Бахаса Мелайу. Цель этого бенчмарка — обеспечить более точную и культурно-чувствительную оценку LLMs, особенно в условиях низко-ресурсных языков.
## ПРЕДЛОЖЕННЫЙ МЕТОД
MyCulture предлагает новый подход к оценке LLMs с помощью открытых многовыборных вопросов, которые не имеют предопределенных вариантов ответов. Этот формат позволяет сократить вероятность угадывания ответов и снизить влияние форматного биаса. Авторы предлагают теоретическое обоснование эффективности этой структуры, которая повышает справедливость и дискриминативную силу оценки.
Кроме того, бенчмарк рассматривает структурный биас, сравнивая производительность моделей на структурированных и свободно-форматных выходных данных. Также оценивается языковой биас через мультиязычные вариации призывов (prompts). Это позволяет выявить различия в культурном понимании между различными региональными и международными LLMs.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
В рамках эксперимента были оценены различные LLMs на базе MyCulture. Результаты показали значительные различия в культурном понимании между моделями. Особенно, модели, обученные на данных с высоко-ресурсными языками, демонстрировали меньшую точность в понимании малайзийской культуры по сравнению с моделями, которые более ориентированы на низко-ресурсные языки.
Было также выявлено, что открытый формат вопросов позволяет более точно оценивать понимание моделями культурных контекстов, чем традиционные методы с заранее определенными ответами. Это подтверждает теоретическое обоснование преимуществ открытого формата.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
MyCulture имеет широкий спектр практических приложений. Он может быть использован для улучшения культурной инклюзивности LLMs, особенно в многокультурных странах как Малайзия. Это может помочь в разработке моделей, которые лучше подходят для приложений в областях культурного понимания, образования, и культурного обмена.
Кроме того, этот бенчмарк может стать важной частью процесса разработки более культурно-чувствительных LLMs, которые могут быть использованы в различных секторах, включая туризм, образование, и социальные сервисы.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
MyCulture представляет собой важное достижение в области культурно-чувствительного оценки LLMs. Он выделяется своей уникальной методологией и форматом открытых вопросов, который позволяет более точно оценивать культурные нюансы. В будущем, этот подход может быть расширен на другие низко-ресурсные языки и культурные контексты, чтобы создать более инклюзивные и точные модели языкового понимания.
Дальнейшие исследования могут фокусироваться на разработке более сложных бенчмарков, которые будут учитывать еще больше культурных и языковых аспектов, а также на создании моделей, которые могут лучше адаптироваться к многокультурным контекстам.
Abstract
Large Language Models (LLMs) often exhibit cultural biases due to training
data dominated by high-resource languages like English and Chinese. This poses
challenges for accurately representing and evaluating diverse cultural
contexts, particularly in low-resource language settings. To address this, we
introduce MyCulture, a benchmark designed to comprehensively evaluate LLMs on
Malaysian culture across six pillars: arts, attire, customs, entertainment,
food, and religion presented in Bahasa Melayu. Unlike conventional benchmarks,
MyCulture employs a novel open-ended multiple-choice question format without
predefined options, thereby reducing guessing and mitigating format bias. We
provide a theoretical justification for the effectiveness of this open-ended
structure in improving both fairness and discriminative power. Furthermore, we
analyze structural bias by comparing model performance on structured versus
free-form outputs, and assess language bias through multilingual prompt
variations. Our evaluation across a range of regional and international LLMs
reveals significant disparities in cultural comprehension, highlighting the
urgent need for culturally grounded and linguistically inclusive benchmarks in
the development and assessment of LLMs.
Ссылки и действия
Дополнительные ресурсы: