MCITlib: Multimodal Continual Instruction Tuning Library and Benchmark

2508.07307v1 cs.CV, cs.AI 2025-08-13
Авторы:

Haiyang Guo, Fei Zhu, Hongbo Zhao, Fanhu Zeng, Wenzhuo Liu, Shijie Ma, Da-Han Wang, Xu-Yao Zhang

Резюме на русском

## Контекст В последние годы становится все очевиднее, что современные системы машинного обучения должны иметь возможность постоянного обучения, чтобы как можно эффективнее адаптироваться к новым задачам и источникам данных. Одной из проблем в этом направлении является **multimodal continual learning**, которая заключается в обучении моделей относительно небольших данных, но на множествах постоянно меняющихся задач, при этом не допуская потери предыдущих знаний. Эта задача становится наиболее актуальной, когда речь идет о моделях, обученных на multimodal data, таких как текст и изображения. Одним из ключевых аспектов в этой области является **instruction tuning**, который позволяет моделям учиться на сочетании разных типов задач в разных модах. Однако, существуют ряд проблем, в том числе catastrophic forgetting, которая усложняет возможность постоянного обучения моделей в контексте multimodal continual learning. ## Метод MCITlib представляет собой **code library и benchmark для multimodal continual instruction tuning (MCIT)**. В её составе включены 8 различных algorithmic approaches для решения задачи сохранения знаний при постоянном обучении. Исследования проводились на двух benchmarks, которые систематически оценивали качество моделей в задаче multimodal continual learning. Ключевые технические решения включают: - **Continual Learning Algorithms**: 8 различных алгоритмов для решения catastrophic forgetting при обучении на множествах задач. - **Multimodal Tuning**: Методы, которые позволяют модели учиться на multimodal data, при этом сохраняя возможность обучения на новых задачах. - **Benchmark Evaluation**: Эталонные наборы данных, которые позволяют оценивать качество решений в контексте multimodal continual learning. ## Результаты На основе MCITlib были проведены ряд экспериментов, в которых были оценены несколько методов continual learning в задачах multimodal continual learning. Результаты показали, что: - Некоторые алгоритмы показали значительную эффективность в минимизации catastrophic forgetting, поддерживая качество модели при обучении на новых задачах. - Другие алгоритмы, в свою очередь, были более эффективны в задачах обучения на нескольких модах, но с меньшей устойчивостью к потерям известных знаний. - Общие результаты показали, что continual instruction tuning может быть весьма эффективным для решения задач multimodal continual learning, но необходимы дополнительные исследования для улучшения моделей. ## Значимость MCITlib имеет значительное значение для развития области multimodal continual learning. Она предоставляет комплексное решение для решения проблем **catastrophic forgetting** и предоставляет возможность проводить эксперименты с различными методами continual learning. Также, MCITlib может быть использована в различных областях, таких как: - **Vision and Language Tasks**: Обучение моделей для комбинации текста и изображений в задачах, таких как сверточные модели, NLP и т.д. - **Real-time Adaptation**: Модели, которые могут быть дополнительно обучены в реальном времени, чтобы адаптироваться к новым данным и постоянно изменяющимся

Abstract

Continual learning aims to equip AI systems with the ability to continuously acquire and adapt to new knowledge without forgetting previously learned information, similar to human learning. While traditional continual learning methods focusing on unimodal tasks have achieved notable success, the emergence of Multimodal Large Language Models has brought increasing attention to Multimodal Continual Learning tasks involving multiple modalities, such as vision and language. In this setting, models are expected to not only mitigate catastrophic forgetting but also handle the challenges posed by cross-modal interactions and coordination. To facilitate research in this direction, we introduce MCITlib, a comprehensive and constantly evolving code library for continual instruction tuning of Multimodal Large Language Models. In MCITlib, we have currently implemented 8 representative algorithms for Multimodal Continual Instruction Tuning and systematically evaluated them on 2 carefully selected benchmarks. MCITlib will be continuously updated to reflect advances in the Multimodal Continual Learning field. The codebase is released at https://github.com/Ghy0501/MCITlib.

Ссылки и действия