LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models
2508.12733v1
cs.CL, cs.AI
2025-08-20
Авторы:
Zhiyuan Ning, Tianle Gu, Jiaxin Song, Shixin Hong, Lingyu Li, Huacan Liu, Jie Li, Yixu Wang, Meng Lingyu, Yan Teng, Yingchun Wang
Резюме на русском
## Контекст
В последние годы широко распространенность и востребованность бо LARGE LANGUAGE MODELS (LLMs) в технологических сферах требуют внимательного подхода к их безопасности в различных языковых и культурных контекстах. Несмотря на это, существующие методы оценки безопасности LLMs часто ограничены недостатком широкого языкового покрытия и разнообразия данных. Это существенно снижает эффективность текущих методов согласования безопасности LLMs, затрудняя развитие систем, которые могут быть эффективными в разных языковых и культурных средах.
## Метод
Для решения этой проблемы мы предлагаем LinguaSafe, комплексный многоязычный бенчмарк, разработанный с учетом языковой аутентичности и культурной контекстности. LinguaSafe включает 45 тысяч записей на 12 языках, включая хунгарский и малайский, созданные с помощью перевода, переделки и родных ресурсов. Методология LinguaSafe включает в себя двухуровневую оценку безопасности (прямую и косвенную), а также оценку чувствительности. Это позволяет выявить проблемы, такие как переобучение и недообучение, в различных языковых контекстах.
## Результаты
Используя LinguaSafe, мы провели эксперименты с несколькими LLMs, оценили их показатели безопасности и полезности в разных языковых контекстах. Результаты показали существенные различия в этих показателях, даже для языков с близкими уровнями ресурсов. Например, в группе языков с похожими ресурсами, таких как русский и украинский, значимость и безопасность могут отличаться в зависимости от конкретного языкового моделирования и применения.
## Значимость
LinguaSafe позволяет проводить оценку безопасности LLMs в различных языковых и культурных средах. Бенчмарк может применяться в разработке безопасных систем для различных государственных и коммерческих целей. Он предоставляет потенциал для улучшения безопасности LLMs, особенно в тех областях, где языковые и культурные различия требуют особого внимания.
## Выводы
LinguaSafe представляет собой первый подробный многоязычный бенчмарк для оценки безопасности LLMs. Наши результаты подчеркивают важность комплексного подхода к оценке безопасности в различных языковых контекстах. В будущем мы планируем расширить LinguaSafe, добавив более языков и тестовых случаев, чтобы повысить ценность и эффективность этого инструмента для безопасной разработки LLMs.
Abstract
The widespread adoption and increasing prominence of large language models
(LLMs) in global technologies necessitate a rigorous focus on ensuring their
safety across a diverse range of linguistic and cultural contexts. The lack of
a comprehensive evaluation and diverse data in existing multilingual safety
evaluations for LLMs limits their effectiveness, hindering the development of
robust multilingual safety alignment. To address this critical gap, we
introduce LinguaSafe, a comprehensive multilingual safety benchmark crafted
with meticulous attention to linguistic authenticity. The LinguaSafe dataset
comprises 45k entries in 12 languages, ranging from Hungarian to Malay. Curated
using a combination of translated, transcreated, and natively-sourced data, our
dataset addresses the critical need for multilingual safety evaluations of
LLMs, filling the void in the safety evaluation of LLMs across diverse
under-represented languages from Hungarian to Malay. LinguaSafe presents a
multidimensional and fine-grained evaluation framework, with direct and
indirect safety assessments, including further evaluations for oversensitivity.
The results of safety and helpfulness evaluations vary significantly across
different domains and different languages, even in languages with similar
resource levels. Our benchmark provides a comprehensive suite of metrics for
in-depth safety evaluation, underscoring the critical importance of thoroughly
assessing multilingual safety in LLMs to achieve more balanced safety
alignment. Our dataset and code are released to the public to facilitate
further research in the field of multilingual LLM safety.
Ссылки и действия
Дополнительные ресурсы: