MCITlib: Multimodal Continual Instruction Tuning Library and Benchmark
2508.07307v1
cs.CV, cs.AI
2025-08-13
Авторы:
Haiyang Guo, Fei Zhu, Hongbo Zhao, Fanhu Zeng, Wenzhuo Liu, Shijie Ma, Da-Han Wang, Xu-Yao Zhang
Резюме на русском
## Контекст
В последние годы становится все очевиднее, что современные системы машинного обучения должны иметь возможность постоянного обучения, чтобы как можно эффективнее адаптироваться к новым задачам и источникам данных. Одной из проблем в этом направлении является **multimodal continual learning**, которая заключается в обучении моделей относительно небольших данных, но на множествах постоянно меняющихся задач, при этом не допуская потери предыдущих знаний. Эта задача становится наиболее актуальной, когда речь идет о моделях, обученных на multimodal data, таких как текст и изображения. Одним из ключевых аспектов в этой области является **instruction tuning**, который позволяет моделям учиться на сочетании разных типов задач в разных модах. Однако, существуют ряд проблем, в том числе catastrophic forgetting, которая усложняет возможность постоянного обучения моделей в контексте multimodal continual learning.
## Метод
MCITlib представляет собой **code library и benchmark для multimodal continual instruction tuning (MCIT)**. В её составе включены 8 различных algorithmic approaches для решения задачи сохранения знаний при постоянном обучении. Исследования проводились на двух benchmarks, которые систематически оценивали качество моделей в задаче multimodal continual learning. Ключевые технические решения включают:
- **Continual Learning Algorithms**: 8 различных алгоритмов для решения catastrophic forgetting при обучении на множествах задач.
- **Multimodal Tuning**: Методы, которые позволяют модели учиться на multimodal data, при этом сохраняя возможность обучения на новых задачах.
- **Benchmark Evaluation**: Эталонные наборы данных, которые позволяют оценивать качество решений в контексте multimodal continual learning.
## Результаты
На основе MCITlib были проведены ряд экспериментов, в которых были оценены несколько методов continual learning в задачах multimodal continual learning. Результаты показали, что:
- Некоторые алгоритмы показали значительную эффективность в минимизации catastrophic forgetting, поддерживая качество модели при обучении на новых задачах.
- Другие алгоритмы, в свою очередь, были более эффективны в задачах обучения на нескольких модах, но с меньшей устойчивостью к потерям известных знаний.
- Общие результаты показали, что continual instruction tuning может быть весьма эффективным для решения задач multimodal continual learning, но необходимы дополнительные исследования для улучшения моделей.
## Значимость
MCITlib имеет значительное значение для развития области multimodal continual learning. Она предоставляет комплексное решение для решения проблем **catastrophic forgetting** и предоставляет возможность проводить эксперименты с различными методами continual learning. Также, MCITlib может быть использована в различных областях, таких как:
- **Vision and Language Tasks**: Обучение моделей для комбинации текста и изображений в задачах, таких как сверточные модели, NLP и т.д.
- **Real-time Adaptation**: Модели, которые могут быть дополнительно обучены в реальном времени, чтобы адаптироваться к новым данным и постоянно изменяющимся
Abstract
Continual learning aims to equip AI systems with the ability to continuously
acquire and adapt to new knowledge without forgetting previously learned
information, similar to human learning. While traditional continual learning
methods focusing on unimodal tasks have achieved notable success, the emergence
of Multimodal Large Language Models has brought increasing attention to
Multimodal Continual Learning tasks involving multiple modalities, such as
vision and language. In this setting, models are expected to not only mitigate
catastrophic forgetting but also handle the challenges posed by cross-modal
interactions and coordination. To facilitate research in this direction, we
introduce MCITlib, a comprehensive and constantly evolving code library for
continual instruction tuning of Multimodal Large Language Models. In MCITlib,
we have currently implemented 8 representative algorithms for Multimodal
Continual Instruction Tuning and systematically evaluated them on 2 carefully
selected benchmarks. MCITlib will be continuously updated to reflect advances
in the Multimodal Continual Learning field. The codebase is released at
https://github.com/Ghy0501/MCITlib.
Ссылки и действия
Дополнительные ресурсы: