Interference Matrix: Quantifying Cross-Lingual Interference in Transformer Encoders

2508.02256v1 cs.CL 2025-08-09

Авторы:

Belen Alastruey, João Maria Janeiro, Alexandre Allauzen, Maha Elbayad, Loïc Barrault, Marta R. Costa-jussà

Резюме на русском

В статье представлено исследование сосредоточенное на изучении перекрестного влияния языков в моделях Трансформеров с одним режимом обучения. Авторы изучили 83 языка и разработали так называемую матрицу перекрестного влияния, используя BERT-подобные модели, обученные на всем наборе возможных пар языков. Основным выводом является то, что перекрестное влияние языков не симметрично и не соответствует традиционным характеристикам, таким как языковые семьи или схожесть словряных векторов. Его влияние лучше может быть прослежено через свойства скрипта языков. Исследование также показало, что матрица перекрестного влияния может эффективно предсказывать поведение моделей на различных задачах, что позволяет оптимизировать разработку многоязычных моделей для достижения наилучшего результата.

Abstract

In this paper, we present a comprehensive study of language interference in encoder-only Transformer models across 83 languages. We construct an interference matrix by training and evaluating small BERT-like models on all possible language pairs, providing a large-scale quantification of cross-lingual interference. Our analysis reveals that interference between languages is asymmetrical and that its patterns do not align with traditional linguistic characteristics, such as language family, nor with proxies like embedding similarity, but instead better relate to script. Finally, we demonstrate that the interference matrix effectively predicts performance on downstream tasks, serving as a tool to better design multilingual models to obtain optimal performance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Interference Matrix: Quantifying Cross-Lingual Interference in Transformer Encoders

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Nexus: Higher-Order Attention Mechanisms in Transformers

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

ClusterFusion: Hybrid Clustering with Embedding Guidance and LLM Adaptation

SQuARE: Structured Query & Adaptive Retrieval Engine For Tabular Formats

RapidUn: Influence-Driven Parameter Reweighting for Efficient Large Language Mod...

Навигация