Evaluating Multilingual and Code-Switched Alignment in LLMs via Synthetic Natural Language Inference
2508.14735v1
cs.CL, cs.AI
2025-08-22
Авторы:
Samir Abdaljalil, Erchin Serpedin, Khalid Qaraqe, Hasan Kurban
Резюме на русском
## Контекст
Large language models (LLMs) широко применяются в многоязычных контекстах, но их возможность обеспечивать надежные и логически обоснованные выводы в разных языках остается недостаточно изученной. Одной из главных проблем для многоязычных моделей является сбалансированное представление и логическая консистентность в выводах на разных языках. Для улучшения этой области необходимо разработать эффективные методы экспериментов и синтетических данных, которые позволят протестировать модели на различных языках и в комбинации нескольких языков в одном запросе (code-switching).
## Метод
Мы предлагаем контролируемую систему для оценки многоязычной и код-свичентой (code-switched) NLI-моделей. Мы сгенерируем синтетические предложения, состоящие из предложений (premises) и выводов (hypotheses), которые будут логически связаны. Эти пары будут переведены на различные языки с широким типажным разнообразием. Это позволит проверить модели на логической консистентности в разных языках, в том числе в контексте код-свитчинга. Такой подход дает возможность экспериментов с разными уровнями семантического взаимодействия и анализом потенциальных недостатков моделей в многоязычных условиях.
## Результаты
Мы проверили несколько моделей LLMs на наших синтетических данных, включая переводы на несколько типажных языков. Мы обнаружили, что код-свитчинг не только не мешает, но и в некоторых случаях улучшает производительность моделей. Это может быть объяснено тем, что трансляция вводит дополнительные вариации в языковой форме, которые могут служить регуляризирующим сигналом. Мы также провели анализ семантической консистентности с помощью семантических векторов и визуализаций, подтвердив логическую и семантическую консистентность переведенных предложений.
## Значимость
Наши результаты имеют большое значение для улучшения многоязычных моделей NLI. Мы выявили, что код-свитчинг может быть использован как метод для повышения разнообразия и улучшения общей модели. Наша система может быть применена в сценариях многоязычного анализа, научных исследованиях в области NLP, и в поиске решений для улучшения моделей в условиях многоязычности. Это также открывает новые возможности для исследования контекстной передачи и кодовых свитчингов в NLP.
## Выводы
Мы установили, что модели LLMs могут быть эффективно оценены с помощью синтетических данных и контролируемых экспериментов. Мы показали, что код-свитчинг может улучшить производительность моделей в многоязычных условиях, но требуется больше исследований для уточнения этого эффекта. Наше исследование подкреп
Abstract
Large language models (LLMs) are increasingly applied in multilingual
contexts, yet their capacity for consistent, logically grounded alignment
across languages remains underexplored. We present a controlled evaluation
framework for multilingual natural language inference (NLI) that generates
synthetic, logic-based premise-hypothesis pairs and translates them into a
typologically diverse set of languages. This design enables precise control
over semantic relations and allows testing in both monolingual and
mixed-language (code-switched) conditions. Surprisingly, code-switching does
not degrade, and can even improve, performance, suggesting that
translation-induced lexical variation may serve as a regularization signal. We
validate semantic preservation through embedding-based similarity analyses and
cross-lingual alignment visualizations, confirming the fidelity of translated
pairs. Our findings expose both the potential and the brittleness of current
LLM cross-lingual reasoning, and identify code-switching as a promising lever
for improving multilingual robustness. Code available at:
https://github.com/KurbanIntelligenceLab/nli-stress-testing
Ссылки и действия
Дополнительные ресурсы: