Probabilistic Token Alignment for Large Language Model Fusion

2509.17276v1 cs.CL, cs.AI, cs.LG 2025-09-24
Авторы:

Runjia Zeng, James Chenhao Liang, Cheng Han, Zhiwen Cao, Jiahao Liu, Xiaojun Quan, Yingjie Victor Chen, Lifu Huang, Tong Geng, Qifan Wang, Dongfang Liu

Резюме на русском

#### Контекст Современные боLатие на основе large language models (LLMs) представляют собой мощные инструменты для решения различных задач, включая генерацию текста, трансляцию и помощь в программировании. Однако развитие и обучение LLMs с нуля требуют больших вычислительных ресурсов и времени, что приводит к неэффективности в условиях ограниченных возможностей. Другой подход — слияние уже имеющихся LLMs различных архитектур — может создать модель с более широким спектром возможностей. Тем не менее, традиционные методы слияния LLMs требуют специально определенного словаря, что может ограничивать их гибкость и универсальность в различных контекстах. Это ограничение может привести к понижению качества использования моделей в ситуациях, где словарь не полностью соответствует контексту. #### Метод Мы предлагаем **Probabilistic Token Alignment (PTA-LLM)**, подход, основанный на современных теориях оптимального транспорта, чтобы решить проблему недостаточной гибкости в существующих методах. В PTA-LLM вместо статического словаря используется **проблема транспорта с пространственным и линейным распределением**, что делает метод более универсальным и динамичным. Наша методология включает две основные стадии: 1. **Распределенное оптимальное транспортирование** — алгоритм оптимизации, использующий распределения токенов как входные данные для адаптивного слияния моделей. 2. **Пространственная интеграция** — техника, которая позволяет выравнивать токены двух моделей с учетом их независимости и дополняющихся характеристик. Такой подход позволяет разбираться в сложности слияния моделей, даже когда словарь или распределение токенов не являются статичными или универсальными. #### Результаты Мы провели эксперименты с несколькими парами LLMs различных архитектур, включая Transformer-based и Recurrent-based модели. Для этих экспериментов использовались такие данные, как разнообразные текстовые базы, в том числе статей, коротких сообщений и кодов. Наши результаты показывают, что PTA-LLM превосходит традиционные методы в следующих аспектах: - **Производительность**: Модели, объединенные с помощью PTA-LLM, показали значительные улучшения в задачах генерации текста, классификации и понимания языка. - **Гибкость**: Модели показали улучшенную работу в различных контекстах, независимо от специфики словаря или данных. - **Производительность расчетов**: Метод PTA-LLM демонстрирует более эффективную обработку в сравнении с полностью отлаженными моделями, которые требуют больших ресурсов для обучения. #### Значимость Результаты нашего исс

Abstract

Training large language models (LLMs) from scratch can yield models with unique functionalities and strengths, but it is costly and often leads to redundant capabilities. A more cost-effective alternative is to fuse existing pre-trained LLMs with different architectures into a more powerful model. However, a key challenge in existing model fusion is their dependence on manually predefined vocabulary alignment, which may not generalize well across diverse contexts, leading to performance degradation in several evaluation. To solve this, we draw inspiration from distribution learning and propose the probabilistic token alignment method as a general and soft mapping for alignment, named as PTA-LLM. Our approach innovatively reformulates token alignment into a classic mathematical problem: optimal transport, seamlessly leveraging distribution-aware learning to facilitate more coherent model fusion. Apart from its inherent generality, PTA-LLM exhibits interpretability from a distributional perspective, offering insights into the essence of the token alignment. Empirical results demonstrate that probabilistic token alignment enhances the target model's performance across multiple capabilities. Our code is avaliable at https://runjia.tech/neurips_pta-llm/.

Ссылки и действия