What if I ask in \textit{alia lingua}? Measuring Functional Similarity Across Languages

2509.04032v1 cs.CL, cs.LG 2025-09-06

Авторы:

Debangan Mishra, Arihant Rastogi, Agyeya Negi, Shashwat Goel, Ponnurangam Kumaraguru

Резюме на русском

## Контекст В последние годы модели глубокого обучения, особенно модели естественного языкового обработки (НЛО), достигли выдающихся результатов в области понимания и генерирования текста. Однако большая часть исследований ориентирована на английский язык, тем самым ограничивая понимание многоязычных систем. Несмотря на улучшение моделей, вопросы о том, насколько они одинаково работают в разных языках, остаются откровенными. Эти несоответствия могут быть причиной неточностей и локализованных ошибок, особенно в контексте многоязычных приложений. Целью нашей исследовательской работы является изучение функциональной схожести моделей НЛО в 20 языках, используя метрику $\kappa_p$, чтобы оценить их надежность и понять, как они взаимодействуют в разных языковых окружениях. ## Метод Мы применяем метрику $\kappa_p$ для измерения функциональной схожести моделей НЛО в 20 языках с помощью 47 подмножеств тестов из коллекции GlobalMMLU. Метрика $\kappa_p$ определяет уровень согласия между моделями, поочередно просматривая их выходы на одинаковых входных данных. Для обеспечения представительности используются модели разных размеров, от небольших до крупных. Для каждого языка проводится анализ среднего значения $\kappa_p$, позволяющий оценить согласованность внутри модели и между моделями разных языков. ## Результаты Наши эксперименты показали, что более мощные модели глубокого обучения демонстрируют более высокую функциональную схожесть языков. Это выявляется как в сравнении выводов моделей внутри одного языка, так и в сравнении выводов моделей разных языков. Однако модели встречаются чаще всего в согласии с самими собой, чем с другими моделями в том же языке. Это открытое несоответствие может быть причиной потенциальных ошибок в многоязычных системах. Эти результаты также подтверждают значимость $\kappa_p$ как инструмента для оценки надежности моделей в разных языках. ## Значимость Наши результаты имеют практическое значение для развития многоязычных моделей глубокого обучения. Они показывают, что модели могут быть неоднородны в своих реакциях на языках, что может привести к несогласованности в результатах. Таким образом, $\kappa_p$ может быть использован для точного контроля надежности и согласованности моделей. Будущие исследования будут сфокусированы на изучении типов ошибок, которые возникают в сценариях многоязычной моделирования, и на разработке методов для уменьшения этих несоответствий. ## Выводы Мы исследовали функциональную схожесть моделей естественного языкового обработки в 20 языках с помощью метрики $\kappa_p$.

Abstract

How similar are model outputs across languages? In this work, we study this question using a recently proposed model similarity metric $\kappa_p$ applied to 20 languages and 47 subjects in GlobalMMLU. Our analysis reveals that a model's responses become increasingly consistent across languages as its size and capability grow. Interestingly, models exhibit greater cross-lingual consistency within themselves than agreement with other models prompted in the same language. These results highlight not only the value of $\kappa_p$ as a practical tool for evaluating multilingual reliability, but also its potential to guide the development of more consistent multilingual systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

What if I ask in \textit{alia lingua}? Measuring Functional Similarity Across Languages

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Atte...

Computational Linguistics Meets Libyan Dialect: A Study on Dialect Identificatio...

Sarcasm Detection on Reddit Using Classical Machine Learning and Feature Enginee...

Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling

Enhancing Job Matching: Occupation, Skill and Qualification Linking with the ESC...

Навигация