LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models

2508.12733v1 cs.CL, cs.AI 2025-08-20
Авторы:

Zhiyuan Ning, Tianle Gu, Jiaxin Song, Shixin Hong, Lingyu Li, Huacan Liu, Jie Li, Yixu Wang, Meng Lingyu, Yan Teng, Yingchun Wang

Резюме на русском

## Контекст В последние годы широко распространенность и востребованность бо LARGE LANGUAGE MODELS (LLMs) в технологических сферах требуют внимательного подхода к их безопасности в различных языковых и культурных контекстах. Несмотря на это, существующие методы оценки безопасности LLMs часто ограничены недостатком широкого языкового покрытия и разнообразия данных. Это существенно снижает эффективность текущих методов согласования безопасности LLMs, затрудняя развитие систем, которые могут быть эффективными в разных языковых и культурных средах. ## Метод Для решения этой проблемы мы предлагаем LinguaSafe, комплексный многоязычный бенчмарк, разработанный с учетом языковой аутентичности и культурной контекстности. LinguaSafe включает 45 тысяч записей на 12 языках, включая хунгарский и малайский, созданные с помощью перевода, переделки и родных ресурсов. Методология LinguaSafe включает в себя двухуровневую оценку безопасности (прямую и косвенную), а также оценку чувствительности. Это позволяет выявить проблемы, такие как переобучение и недообучение, в различных языковых контекстах. ## Результаты Используя LinguaSafe, мы провели эксперименты с несколькими LLMs, оценили их показатели безопасности и полезности в разных языковых контекстах. Результаты показали существенные различия в этих показателях, даже для языков с близкими уровнями ресурсов. Например, в группе языков с похожими ресурсами, таких как русский и украинский, значимость и безопасность могут отличаться в зависимости от конкретного языкового моделирования и применения. ## Значимость LinguaSafe позволяет проводить оценку безопасности LLMs в различных языковых и культурных средах. Бенчмарк может применяться в разработке безопасных систем для различных государственных и коммерческих целей. Он предоставляет потенциал для улучшения безопасности LLMs, особенно в тех областях, где языковые и культурные различия требуют особого внимания. ## Выводы LinguaSafe представляет собой первый подробный многоязычный бенчмарк для оценки безопасности LLMs. Наши результаты подчеркивают важность комплексного подхода к оценке безопасности в различных языковых контекстах. В будущем мы планируем расширить LinguaSafe, добавив более языков и тестовых случаев, чтобы повысить ценность и эффективность этого инструмента для безопасной разработки LLMs.

Abstract

The widespread adoption and increasing prominence of large language models (LLMs) in global technologies necessitate a rigorous focus on ensuring their safety across a diverse range of linguistic and cultural contexts. The lack of a comprehensive evaluation and diverse data in existing multilingual safety evaluations for LLMs limits their effectiveness, hindering the development of robust multilingual safety alignment. To address this critical gap, we introduce LinguaSafe, a comprehensive multilingual safety benchmark crafted with meticulous attention to linguistic authenticity. The LinguaSafe dataset comprises 45k entries in 12 languages, ranging from Hungarian to Malay. Curated using a combination of translated, transcreated, and natively-sourced data, our dataset addresses the critical need for multilingual safety evaluations of LLMs, filling the void in the safety evaluation of LLMs across diverse under-represented languages from Hungarian to Malay. LinguaSafe presents a multidimensional and fine-grained evaluation framework, with direct and indirect safety assessments, including further evaluations for oversensitivity. The results of safety and helpfulness evaluations vary significantly across different domains and different languages, even in languages with similar resource levels. Our benchmark provides a comprehensive suite of metrics for in-depth safety evaluation, underscoring the critical importance of thoroughly assessing multilingual safety in LLMs to achieve more balanced safety alignment. Our dataset and code are released to the public to facilitate further research in the field of multilingual LLM safety.

Ссылки и действия