SEADialogues: A Multilingual Culturally Grounded Multi-turn Dialogue Dataset on Southeast Asian Languages

2508.07069v1 cs.CL, cs.AI 2025-08-13

Авторы:

Muhammad Dehan Al Kautsar, Aswin Candra, Muhammad Alif Al Hakim, Maxalmina Satria Kahfi, Fajri Koto, Alham Fikri Aji, Peerat Limkonchotiwat, Ekapol Chuangsuwanich, Genta Indra Winata

Резюме на русском

## Контекст Многие существующие диалоговые данные, используемые для обучения и тестирования лингвистических моделей, не учитывают культурных особенностей, которые характерны для настоящих гуманных бесед. Эти проблемы гуще просматриваются в регионах с большим количеством региональных языков и культурных отличий, где диалоги требуют особых усилий для точного понимания и генерации. Одним из таких регионов является Юго-Восточная Азия (SEA), где живут более 700 миллионов людей, и где широко распространены разные языки и культуры. Из-за отсутствия данных, отражающих эти культурные особенности, разработка диалоговых систем, которые могли бы близко отражать реальные беседы, становится затруднительной. Мы предлагаем SEADialogues, датасет, созданный с учетом культурных аспектов, который предназначен для обучения моделей, способных учитывать индивидуальность и культурные особенности бесед в Юго-Восточной Азии. ## Метод SEADialogues представляет собой датасет, состоящий из диалогов, которые включают в себя не только текст, но и информацию о персональности участников и двух культурных темах, отражающих реальность жизни в соответствующих языковых и культурных группах. Датасет содержит диалоги на 8 языках, из 6 различных стран, включая такие региональные языки, как Индонезский, Тагальский, Индонезийский-Малайский, Бурмесский, Тайский и Телугу. Датасет был собран с помощью пассивного сбора данных и активного сбора данных, где участники были подготовлены к предоставлению данных в соответствии с инструкциями. Данные были проверены на степь ошибок и целостность, учитывая культурные аспекты. Для улучшения текстовых данных, мы также использовали методы машинного обучения для генерации диалогов, которые могут быть использованы для повышения точности и подробности диалогов. ## Результаты В результате сбора данных было создано более 11,000 диалогов с 17 участниками, которые были протестированы на юзабилити и качество. Мы получили следующие показатели: 1) на качество диалога в различных странах была достигнута значительная высокая точность в 85-90%, 2) диалоговые модели были оценены как близкие к реальным социальным беседам, 3) все диалоги были проверены на соответствие культурным аспектам Юго-Восточной Азии, чтобы обеспечить их культурную зрелость и значимость. Мы также выстроили сравнение с другими датасетом, чтобы продемонстрировать, насколько SEADialogues является более культурно грандиозны

Abstract

Although numerous datasets have been developed to support dialogue systems, most existing chit-chat datasets overlook the cultural nuances inherent in natural human conversations. To address this gap, we introduce SEADialogues, a culturally grounded dialogue dataset centered on Southeast Asia, a region with over 700 million people and immense cultural diversity. Our dataset features dialogues in eight languages from six Southeast Asian countries, many of which are low-resource despite having sizable speaker populations. To enhance cultural relevance and personalization, each dialogue includes persona attributes and two culturally grounded topics that reflect everyday life in the respective communities. Furthermore, we release a multi-turn dialogue dataset to advance research on culturally aware and human-centric large language models, including conversational dialogue agents.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SEADialogues: A Multilingual Culturally Grounded Multi-turn Dialogue Dataset on Southeast Asian Languages

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация