LoRA in LoRA: Towards Parameter-Efficient Architecture Expansion for Continual Visual Instruction Tuning

2508.06202v1 cs.CV, cs.AI 2025-08-12
Авторы:

Chang Che, Ziqi Wang, Pengwan Yang, Qi Wang, Hui Ma, Zenglin Shi

Резюме на русском

################################# ## Контекст ################################# Continual Visual Instruction Tuning (CVIT) — это метод, позволяющий Multimodal Large Language Models (MLLMs) надёжно и эффективно учиться последовательно по новым задачам в процессе. Однако, данный подход сталкивается с проблемой катастрофического забывания (catastrophic forgetting), при которой показатели работы модели на предыдущих задачах существенно ухудшаются вследствие того, что модель адаптируется к новым. Основным способом решения этой проблемы является расширение модели, т.е. добавление новых модулей для каждой задачи. Однако, такие методы часто приводят к заметному повышению потребления памяти и снижению степени скалябильности. Наша цель — устранить эти недостатки, разработав метод для эффективного расширения модели, который позволит улучшить её производительность при значительном сокращении потребления ресурсов. ################################# ## Метод ################################# Мы предлагаем LoRA in LoRA (LiLoRA) — новый подход для расширения модели, ориентированный на CVIT. Идея заключается в следующем: 1. **Разделение модулей для каждой задачи**: LiLoRA использует собственную архитектуру с раздельными модулями для каждой задачи, чтобы избежать катастрофического забывания. 2. **Параметрическая эффективность**: Мы предложили несколько методов для эффективного управления памятью. Например, главным элементом является **LoRA matrix A**, который делится между задачами, чтобы уменьшить повторение параметров. Для уменьшения размера модулей мы применяем **low-rank decomposition** к **LoRA matrix B**, чтобы уменьшить количество параметров, относящихся к каждой задаче. 3. **Стабильность используемых представлений**: Для того, чтобы сохранить качество решения при прохождении последовательных задач, мы добавляем **cosine-regularized stability loss**. Это позволяет модели стабильно учиться и не потерять эффективность на предыдущих задачах. ################################# ## Результаты ################################# Мы провели тестирование LiLoRA на широком круге многомодальных задач, включая обработку текстов, изображений и видео. Во всех экспериментах LiLoRA показал значительное улучшение в отношении качества работы по сравнению с другими методами, особенно при последовательном обучении на множестве задач. Наш метод показал лучшую эффективность в памяти, не вызывая катастрофического забывания, и поддерживал высокую производительность при увеличении числа задач. Эксперименты показали, что LiLoRA значительно эффективнее существующих подходов в плане уменьшения потребления памяти и показателей последовательного обучения. ################################# ## Значимость ################################# LiLoRA может использоваться в различных областях, где требуется перспективное расширение моделей без увеличения потребления ресурсов. Например, в области многомодального анализа, где требуется специализированный подход для каждого типа данных

Abstract

Continual Visual Instruction Tuning (CVIT) enables Multimodal Large Language Models (MLLMs) to incrementally learn new tasks over time. However, this process is challenged by catastrophic forgetting, where performance on previously learned tasks deteriorates as the model adapts to new ones. A common approach to mitigate forgetting is architecture expansion, which introduces task-specific modules to prevent interference. Yet, existing methods often expand entire layers for each task, leading to significant parameter overhead and poor scalability. To overcome these issues, we introduce LoRA in LoRA (LiLoRA), a highly efficient architecture expansion method tailored for CVIT in MLLMs. LiLoRA shares the LoRA matrix A across tasks to reduce redundancy, applies an additional low-rank decomposition to matrix B to minimize task-specific parameters, and incorporates a cosine-regularized stability loss to preserve consistency in shared representations over time. Extensive experiments on a diverse CVIT benchmark show that LiLoRA consistently achieves superior performance in sequential task learning while significantly improving parameter efficiency compared to existing approaches.

Ссылки и действия