Probabilistic Token Alignment for Large Language Model Fusion
2509.17276v1
cs.CL, cs.AI, cs.LG
2025-09-24
Авторы:
Runjia Zeng, James Chenhao Liang, Cheng Han, Zhiwen Cao, Jiahao Liu, Xiaojun Quan, Yingjie Victor Chen, Lifu Huang, Tong Geng, Qifan Wang, Dongfang Liu
Резюме на русском
#### Контекст
Современные боLатие на основе large language models (LLMs) представляют собой мощные инструменты для решения различных задач, включая генерацию текста, трансляцию и помощь в программировании. Однако развитие и обучение LLMs с нуля требуют больших вычислительных ресурсов и времени, что приводит к неэффективности в условиях ограниченных возможностей. Другой подход — слияние уже имеющихся LLMs различных архитектур — может создать модель с более широким спектром возможностей. Тем не менее, традиционные методы слияния LLMs требуют специально определенного словаря, что может ограничивать их гибкость и универсальность в различных контекстах. Это ограничение может привести к понижению качества использования моделей в ситуациях, где словарь не полностью соответствует контексту.
#### Метод
Мы предлагаем **Probabilistic Token Alignment (PTA-LLM)**, подход, основанный на современных теориях оптимального транспорта, чтобы решить проблему недостаточной гибкости в существующих методах. В PTA-LLM вместо статического словаря используется **проблема транспорта с пространственным и линейным распределением**, что делает метод более универсальным и динамичным. Наша методология включает две основные стадии:
1. **Распределенное оптимальное транспортирование** — алгоритм оптимизации, использующий распределения токенов как входные данные для адаптивного слияния моделей.
2. **Пространственная интеграция** — техника, которая позволяет выравнивать токены двух моделей с учетом их независимости и дополняющихся характеристик.
Такой подход позволяет разбираться в сложности слияния моделей, даже когда словарь или распределение токенов не являются статичными или универсальными.
#### Результаты
Мы провели эксперименты с несколькими парами LLMs различных архитектур, включая Transformer-based и Recurrent-based модели. Для этих экспериментов использовались такие данные, как разнообразные текстовые базы, в том числе статей, коротких сообщений и кодов. Наши результаты показывают, что PTA-LLM превосходит традиционные методы в следующих аспектах:
- **Производительность**: Модели, объединенные с помощью PTA-LLM, показали значительные улучшения в задачах генерации текста, классификации и понимания языка.
- **Гибкость**: Модели показали улучшенную работу в различных контекстах, независимо от специфики словаря или данных.
- **Производительность расчетов**: Метод PTA-LLM демонстрирует более эффективную обработку в сравнении с полностью отлаженными моделями, которые требуют больших ресурсов для обучения.
#### Значимость
Результаты нашего исс
Abstract
Training large language models (LLMs) from scratch can yield models with
unique functionalities and strengths, but it is costly and often leads to
redundant capabilities. A more cost-effective alternative is to fuse existing
pre-trained LLMs with different architectures into a more powerful model.
However, a key challenge in existing model fusion is their dependence on
manually predefined vocabulary alignment, which may not generalize well across
diverse contexts, leading to performance degradation in several evaluation. To
solve this, we draw inspiration from distribution learning and propose the
probabilistic token alignment method as a general and soft mapping for
alignment, named as PTA-LLM. Our approach innovatively reformulates token
alignment into a classic mathematical problem: optimal transport, seamlessly
leveraging distribution-aware learning to facilitate more coherent model
fusion. Apart from its inherent generality, PTA-LLM exhibits interpretability
from a distributional perspective, offering insights into the essence of the
token alignment. Empirical results demonstrate that probabilistic token
alignment enhances the target model's performance across multiple capabilities.
Our code is avaliable at https://runjia.tech/neurips_pta-llm/.
Ссылки и действия
Дополнительные ресурсы: