One Size Does Not Fit All: A Distribution-Aware Sparsification for More Precise Model Merging

2508.06163v1 cs.CL, cs.AI, cs.LG 2025-08-12
Авторы:

Yingfeng Luo, Dingyang Lin, Junxin Wang, Ziqiang Xu, Kaiyan Chang, Tong Zheng, Bei Li, Anxiang Ma, Tong Xiao, Zhengtao Yu, Jingbo Zhu

Резюме на русском

## Контекст Model merging является перспективным подходом в области многозадачного обучения без доступа к данным. Он основывается на объединении нескольких многозадачных моделей в одну, что позволяет получить модель с улучшенными свойствами. Одной из ключевых техник в этом процессе является спарсификация, призванная уменьшить многообразие параметров модели, чтобы снизить влияние на другие задачи. Однако существующие подходы применяют однородную стратегию спарсификации, которая не учитывает различность структуры и статистических свойств параметров модели. Это ведет к неэффективности в уменьшении интерференции между задачами. Наше исследование адресует эту проблему, предлагая адаптивный подход к спарсификации, который учитывает характеристики каждого параметра. ## Метод Мы предлагаем **TADrop** (\textbf{T}ensor-wise \textbf{A}daptive \textbf{Drop}) - адаптивную стратегию спарсификации, которая присваивает уникальные уровни спарсификации для каждого тензора параметров на основе их распределения. Идея заключается в том, что более делимостные тензоры могут быть более агрессивно спарсифицированы, в то время как более критичные сохраняются. Мы реализуем TADrop как простой модуль, который можно интегрировать с различными существующими методами спарсификации. Это позволяет улучшить их результаты без дополнительных изменений в архитектуре. ## Результаты Мы провели эксперименты на различных задачах (визуальной обработке, текстовом обучении, мультимодальных задачах) и моделях (ViT, BEiT). Метод TADrop показал существенные выигрыши в производительности по сравнению с базовыми методами. Например, при совместном применении с одной из лучших стратегий объединения, TADrop увеличил средний результат на 2.0% для 8-и задач с моделью ViT-B/32. Эти результаты доказывают, что TADrop способен более точно уменьшать интерференцию между задачами, оптимизируя уровни спарсификации в соответствии с распределениями параметров. ## Значимость Наш подход может быть применен во многих аспектах многозадачного обучения, где важно минимизировать влияние одной задачи на другие. Он предоставляет более точный и эффективный способ спарсификации, адаптируясь к специфике модели. Это может привести к улучшению потенциального влияния спарсификации в будущих исследованиях по моделям с функциональным сокращением параметров. ## Выводы Предложенный подход TADrop доказал свою эффективность в улучшении результатов спарсификации. Он является простым и эффективным модулем, который может быть легко интегрирован в различные существующие стратегии. Н

Abstract

Model merging has emerged as a compelling data-free paradigm for multi-task learning, enabling the fusion of multiple fine-tuned models into a single, powerful entity. A key technique in merging methods is sparsification, which prunes redundant parameters from task vectors to mitigate interference. However, prevailing approaches employ a ``one-size-fits-all'' strategy, applying a uniform sparsity ratio that overlooks the inherent structural and statistical heterogeneity of model parameters. This often leads to a suboptimal trade-off, where critical parameters are inadvertently pruned while less useful ones are retained. To address this limitation, we introduce \textbf{TADrop} (\textbf{T}ensor-wise \textbf{A}daptive \textbf{Drop}), an adaptive sparsification strategy that respects this heterogeneity. Instead of a global ratio, TADrop assigns a tailored sparsity level to each parameter tensor based on its distributional properties. The core intuition is that tensors with denser, more redundant distributions can be pruned aggressively, while sparser, more critical ones are preserved. As a simple and plug-and-play module, we validate TADrop by integrating it with foundational, classic, and SOTA merging methods. Extensive experiments across diverse tasks (vision, language, and multimodal) and models (ViT, BEiT) demonstrate that TADrop consistently and significantly boosts their performance. For instance, when enhancing a leading merging method, it achieves an average performance gain of 2.0\% across 8 ViT-B/32 tasks. TADrop provides a more effective way to mitigate parameter interference by tailoring sparsification to the model's structure, offering a new baseline for high-performance model merging.

Ссылки и действия