Linguistic Neuron Overlap Patterns to Facilitate Cross-lingual Transfer on Low-resource Languages

2508.17078v1 cs.CL, cs.AI 2025-08-27

Авторы:

Yuemei Xu, Kexin Xu, Jian Zhou, Ling Hu, Lin Gui

Резюме на русском

## Контекст Улучшение способности к кросс-языковому переводу в условиях нехватки данных для немасштабных языков остается значительной проблемой в области ИИ. Точность кросс-языковых тестов зависит от качества моделей и методов предобработки данных. Однако многие текущие подходы требуют значительных ресурсов, включая подготовку новых данных, многократную тренировку и дорогостоящее оптимизационное тренинг. Эти ограничения становятся главными препятствиями для развития моделей с широким спектром языковых приложений. Мотивированные этим, авторы предлагают новый подход, нацеленный на оптимизацию кросс-языковой передачи с минимальными затратами. ## Метод Предложенный подход, BridgeX-ICL, основывается на идее обнаружения "перекрестных" нейронов, которые способствуют передаче знаний между языками. Метод использует данные из билингвальных словарей MUSE для построения пробного набора данных, включающего "языковые частично активные нейроны". Для определения этих нейронов, авторы применяют метрику HSIC (Hilbert-Schmidt Independence Criterion), которая позволяет измерить значимость отдельных языковых моделей. Оптимальная стратегия выбора базы для модели X-ICL определяется на основе выявленных "перекрестных" нейронов. Эта формула позволяет улучшить передачу знаний на низкоресурсных языках без необходимости дорогостоящих тренировочных процессов. ## Результаты Запуски экспериментов проводились на 2 кросс-языковых задачах (в том числе задачи трансляции и классификации) и 15 параметров языковых пар из 7 различных семей языков. Эти семьи включали как высокоресурсные, так и низкоресурсные языки. Результаты показывают, что BridgeX-ICL не только повышает точность кросс-языковых тестов, но и демонстрирует более эффективную интеграцию знаний между языками. Эти результаты подтверждают значимость использования "перекрестных" нейронов в процессе передачи знаний кросс-языкового перевода. ## Значимость Предложенный подход может использоваться в различных сферах, таких как машинный перевод, распознавание речи и генерация текста на низкоресурсных языках. Он предоставляет более эффективный путь для улучшения кросс-языковых моделей без требования дорогостоящих ресурсов. Это может иметь огромное значение для развития ИИ в тех регионах, где языки низкого ресурса имеют большую значимость. ## Выводы BridgeX-ICL доказывает, что обнаружение "перекрестных" нейронов может значительно улучшить кросс-языковую передачу на низкоресурсных языках. Он представляет собой простой, но эффективный подход к реш

Abstract

The current Large Language Models (LLMs) face significant challenges in improving performance on low-resource languages and urgently need data-efficient methods without costly fine-tuning. From the perspective of language-bridge, we propose BridgeX-ICL, a simple yet effective method to improve zero-shot Cross-lingual In-Context Learning (X-ICL) for low-resource languages. Unlike existing works focusing on language-specific neurons, BridgeX-ICL explores whether sharing neurons can improve cross-lingual performance in LLMs or not. We construct neuron probe data from the ground-truth MUSE bilingual dictionaries, and define a subset of language overlap neurons accordingly, to ensure full activation of these anchored neurons. Subsequently, we propose an HSIC-based metric to quantify LLMs' internal linguistic spectrum based on overlap neurons, which guides optimal bridge selection. The experiments conducted on 2 cross-lingual tasks and 15 language pairs from 7 diverse families (covering both high-low and moderate-low pairs) validate the effectiveness of BridgeX-ICL and offer empirical insights into the underlying multilingual mechanisms of LLMs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Linguistic Neuron Overlap Patterns to Facilitate Cross-lingual Transfer on Low-resource Languages

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Empathy by Design: Aligning Large Language Models for Healthcare Dialogue

Do You Feel Comfortable? Detecting Hidden Conversational Escalation in AI Chatbo...

Convergence of Outputs When Two Large Language Models Interact in a Multi-Agenti...

Classifying German Language Proficiency Levels Using Large Language Models

Mechanistic Interpretability of GPT-2: Lexical and Contextual Layers in Sentimen...

Навигация