## КОНТЕКСТ И ПРОБЛЕМАТИКА
В последнее времение широко распространены Large Language Models (LLMs), которые используются для различных приложений включая генерацию текста, перевод языков, и понимание контекста. Однако, эти модели часто показывают культурные смещения, которые возникают из-за того, что их обучение основано на данных, преимущественно собранных из высоко-ресурсных языков, таких как английский и китайский. Это приводит к недостатку точного представления и оценки разнообразных культурных контекстов, особенно в низко-ресурсных языковых областях. Такие смещения могут приводить к неточному представлению культурных аспектов, что является критическим фактором в многокультурных обществах.
Малайзия, как многокультурная и многоязычная страна, представляет собой отличный пример места, где такие культурные смещения могут проявляться. Однако, существующие бенчмарки для оценки LLMs редко учитывают уникальные культурные аспекты малайзийского контекста, особенно когда речь идет о языке Бахаса Мелайу. Это создает проблему для разработки моделей, которые могут точно понимать и оценивать культурные нюансы в таких областях.
Для решения этой проблемы, авторы предлагают MyCulture, бенчмарк, ориентированный на оценку LLMs в контексте малайзийской культуры. Он охватывает шесть ключевых областей: искусство, одежда, обычаи, развлечения, еда, и религия, представленные на языке Бахаса Мелайу. Цель этого бенчмарка — обеспечить более точную и культурно-чувствительную оценку LLMs, особенно в условиях низко-ресурсных языков.
## ПРЕДЛОЖЕННЫЙ МЕТОД
MyCulture предлагает новый подход к оценке LLMs с помощью открытых многовыборных вопросов, которые не имеют предопределенных вариантов ответов. Этот формат позволяет сократить вероятность угадывания ответов и снизить влияние форматного биаса. Авторы предлагают теоретическое обоснование эффективности этой структуры, которая повышает справедливость и дискриминативную силу оценки.
Кроме того, бенчмарк рассматривает структурный биас, сравнивая производительность моделей на структурированных и свободно-форматных выходных данных. Также оценивается языковой биас через мультиязычные вариации призывов (prompts). Это позволяет выявить различия в культурном понимании между различными региональными и международными LLMs.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
В рамках эксперимента были оценены различные LLMs на базе MyCulture. Результаты показали значительные различия в культурном понимании между моделями. Особенно, модели, обученные на данных с высоко-ресурсными языками, демонстрировали меньшую точность в понимании малайзийской культуры по сравнению с моделями, которые более ориентированы на низко-ресурсные языки.
Было также выявлено, что открытый формат вопросов позволяет более точно оценивать понимание моделями культурных контекстов, чем традиционные методы с заранее определенными ответами. Это подтверждает теоретическое обоснование преимуществ открытого формата.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
MyCulture имеет широкий спектр практических приложений. Он может быть использован для улучшения культурной инклюзивности LLMs, особенно в многокультурных странах как Малайзия. Это может помочь в разработке моделей, которые лучше подходят для приложений в областях культурного понимания, образования, и культурного обмена.
Кроме того, этот бенчмарк может стать важной частью процесса разработки более культурно-чувствительных LLMs, которые могут быть использованы в различных секторах, включая туризм, образование, и социальные сервисы.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
MyCulture представляет собой важное достижение в области культурно-чувствительного оценки LLMs. Он выделяется своей уникальной методологией и форматом открытых вопросов, который позволяет более точно оценивать культурные нюансы. В будущем, этот подход может быть расширен на другие низко-ресурсные языки и культурные контексты, чтобы создать более инклюзивные и точные модели языкового понимания.
Дальнейшие исследования могут фокусироваться на разработке более сложных бенчмарков, которые будут учитывать еще больше культурных и языковых аспектов, а также на создании моделей, которые могут лучше адаптироваться к многокультурным контекстам.