What if I ask in \textit{alia lingua}? Measuring Functional Similarity Across Languages
2509.04032v1
cs.CL, cs.LG
2025-09-06
Авторы:
Debangan Mishra, Arihant Rastogi, Agyeya Negi, Shashwat Goel, Ponnurangam Kumaraguru
Резюме на русском
## Контекст
В последние годы модели глубокого обучения, особенно модели естественного языкового обработки (НЛО), достигли выдающихся результатов в области понимания и генерирования текста. Однако большая часть исследований ориентирована на английский язык, тем самым ограничивая понимание многоязычных систем. Несмотря на улучшение моделей, вопросы о том, насколько они одинаково работают в разных языках, остаются откровенными. Эти несоответствия могут быть причиной неточностей и локализованных ошибок, особенно в контексте многоязычных приложений. Целью нашей исследовательской работы является изучение функциональной схожести моделей НЛО в 20 языках, используя метрику $\kappa_p$, чтобы оценить их надежность и понять, как они взаимодействуют в разных языковых окружениях.
## Метод
Мы применяем метрику $\kappa_p$ для измерения функциональной схожести моделей НЛО в 20 языках с помощью 47 подмножеств тестов из коллекции GlobalMMLU. Метрика $\kappa_p$ определяет уровень согласия между моделями, поочередно просматривая их выходы на одинаковых входных данных. Для обеспечения представительности используются модели разных размеров, от небольших до крупных. Для каждого языка проводится анализ среднего значения $\kappa_p$, позволяющий оценить согласованность внутри модели и между моделями разных языков.
## Результаты
Наши эксперименты показали, что более мощные модели глубокого обучения демонстрируют более высокую функциональную схожесть языков. Это выявляется как в сравнении выводов моделей внутри одного языка, так и в сравнении выводов моделей разных языков. Однако модели встречаются чаще всего в согласии с самими собой, чем с другими моделями в том же языке. Это открытое несоответствие может быть причиной потенциальных ошибок в многоязычных системах. Эти результаты также подтверждают значимость $\kappa_p$ как инструмента для оценки надежности моделей в разных языках.
## Значимость
Наши результаты имеют практическое значение для развития многоязычных моделей глубокого обучения. Они показывают, что модели могут быть неоднородны в своих реакциях на языках, что может привести к несогласованности в результатах. Таким образом, $\kappa_p$ может быть использован для точного контроля надежности и согласованности моделей. Будущие исследования будут сфокусированы на изучении типов ошибок, которые возникают в сценариях многоязычной моделирования, и на разработке методов для уменьшения этих несоответствий.
## Выводы
Мы исследовали функциональную схожесть моделей естественного языкового обработки в 20 языках с помощью метрики $\kappa_p$.
Abstract
How similar are model outputs across languages? In this work, we study this
question using a recently proposed model similarity metric $\kappa_p$ applied
to 20 languages and 47 subjects in GlobalMMLU. Our analysis reveals that a
model's responses become increasingly consistent across languages as its size
and capability grow. Interestingly, models exhibit greater cross-lingual
consistency within themselves than agreement with other models prompted in the
same language. These results highlight not only the value of $\kappa_p$ as a
practical tool for evaluating multilingual reliability, but also its potential
to guide the development of more consistent multilingual systems.
Ссылки и действия
Дополнительные ресурсы: