Evaluating Multilingual and Code-Switched Alignment in LLMs via Synthetic Natural Language Inference

2508.14735v1 cs.CL, cs.AI 2025-08-22

Авторы:

Samir Abdaljalil, Erchin Serpedin, Khalid Qaraqe, Hasan Kurban

Резюме на русском

## Контекст Large language models (LLMs) широко применяются в многоязычных контекстах, но их возможность обеспечивать надежные и логически обоснованные выводы в разных языках остается недостаточно изученной. Одной из главных проблем для многоязычных моделей является сбалансированное представление и логическая консистентность в выводах на разных языках. Для улучшения этой области необходимо разработать эффективные методы экспериментов и синтетических данных, которые позволят протестировать модели на различных языках и в комбинации нескольких языков в одном запросе (code-switching). ## Метод Мы предлагаем контролируемую систему для оценки многоязычной и код-свичентой (code-switched) NLI-моделей. Мы сгенерируем синтетические предложения, состоящие из предложений (premises) и выводов (hypotheses), которые будут логически связаны. Эти пары будут переведены на различные языки с широким типажным разнообразием. Это позволит проверить модели на логической консистентности в разных языках, в том числе в контексте код-свитчинга. Такой подход дает возможность экспериментов с разными уровнями семантического взаимодействия и анализом потенциальных недостатков моделей в многоязычных условиях. ## Результаты Мы проверили несколько моделей LLMs на наших синтетических данных, включая переводы на несколько типажных языков. Мы обнаружили, что код-свитчинг не только не мешает, но и в некоторых случаях улучшает производительность моделей. Это может быть объяснено тем, что трансляция вводит дополнительные вариации в языковой форме, которые могут служить регуляризирующим сигналом. Мы также провели анализ семантической консистентности с помощью семантических векторов и визуализаций, подтвердив логическую и семантическую консистентность переведенных предложений. ## Значимость Наши результаты имеют большое значение для улучшения многоязычных моделей NLI. Мы выявили, что код-свитчинг может быть использован как метод для повышения разнообразия и улучшения общей модели. Наша система может быть применена в сценариях многоязычного анализа, научных исследованиях в области NLP, и в поиске решений для улучшения моделей в условиях многоязычности. Это также открывает новые возможности для исследования контекстной передачи и кодовых свитчингов в NLP. ## Выводы Мы установили, что модели LLMs могут быть эффективно оценены с помощью синтетических данных и контролируемых экспериментов. Мы показали, что код-свитчинг может улучшить производительность моделей в многоязычных условиях, но требуется больше исследований для уточнения этого эффекта. Наше исследование подкреп

Abstract

Large language models (LLMs) are increasingly applied in multilingual contexts, yet their capacity for consistent, logically grounded alignment across languages remains underexplored. We present a controlled evaluation framework for multilingual natural language inference (NLI) that generates synthetic, logic-based premise-hypothesis pairs and translates them into a typologically diverse set of languages. This design enables precise control over semantic relations and allows testing in both monolingual and mixed-language (code-switched) conditions. Surprisingly, code-switching does not degrade, and can even improve, performance, suggesting that translation-induced lexical variation may serve as a regularization signal. We validate semantic preservation through embedding-based similarity analyses and cross-lingual alignment visualizations, confirming the fidelity of translated pairs. Our findings expose both the potential and the brittleness of current LLM cross-lingual reasoning, and identify code-switching as a promising lever for improving multilingual robustness. Code available at: https://github.com/KurbanIntelligenceLab/nli-stress-testing

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Evaluating Multilingual and Code-Switched Alignment in LLMs via Synthetic Natural Language Inference

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация