MindVL: Towards Efficient and Effective Training of Multimodal Large Language Models on Ascend NPUs
2509.11662v1
cs.CV, cs.AI, cs.CL, eess.IV
2025-09-17
Авторы:
Feilong Chen, Yijiang Liu, Yi Huang, Hao Wang, Miren Tian, Ya-Qi Yu, Minghui Liao, Jihao Wu
Резюме на русском
#### Контекст
Современное развитие искусственного интеллекта способствует появлению моделей, обладающих многомодальными возможностями. Однако обучение таких моделей становится сложным из-за необходимости обработки различных типов данных, включая текст, изображения и таблицы. Это приводит к высоким требованиям к вычислительной мощности и эффективности обучения. Особенно сложной является задача обеспечения высокого качества результатов при ограничении используемых ресурсов.
#### Метод
MindVL — это многомодальная модель текстового понимания, разработанная для обучения на Ascend NPUs. Она включает в себя собственное разрешение изображений, благодаря чему может обрабатывать изображения в их оригинальном состоянии, не прибегая к традиционному сегментированию на куски. Эта архитектура позволяет сохранить тонкие детали и глобальные характеристики, которые важны для обработки сложных графических контентов. Для эффективного использования Ascend NPUs разработана распределенная фреймворк Mindspeed-MLLM, который обеспечивает устойчивость и точность обучения. MindVL проходит трехфазное обучение: начальная фаза налаживает основы, затем происходит многозадачное обучение, а в конце — инструкционный tuning. Для повышения производительности во время обучения вводятся технологии мультимодального упакования данных и гибридного параллелизма.
#### Результаты
Эксперименты показали, что MindVL сохраняет высокую точность при меньшем потреблении данных и ресурсов. Она показала результаты схожие с Qwen2.5-VL в общем понимании мультимодальных данных, а также при парсинге документов и таблиц. Особенно выдает удаленные результаты на задачах OCR. Это демонстрирует инновационность архитектуры и ее высокую эффективность в решении задач, требующих глубокого понимания мультимодальных задач.
#### Значимость
MindVL может применяться в различных областях, таких как разработка систем понимания документов, табличных данных и OCR. Она не только экономит ресурсы, но и предоставляет высококачественные результаты. Это делает ее привлекательной для задач, где необходима эффективность вычислений и точность.
#### Выводы
MindVL позволяет достичь новых завершений в области обучения многомодальных моделей на малом объеме ресурсов. Будущие исследования будут сфокусированы на том, как расширить типы данных, поддерживаемых моделью, и доработать ее для обработки еще более глубоких задач.
Abstract
We propose MindVL, a multimodal large langauge model trained on Ascend NPUs.
Similar to Qwen2.5-VL, MindVL adopts native-resolution Vision Transformers,
which enables it to process images at their original variable resolutions. This
design avoids the degradation caused by fixed-resolution tiling while
preserving fine-grained details and global layouts, which is crucial for
visually dense content such as complex charts and diagrams. To ensure the
smooth training of MindVL on Ascend NPUs, we develop Mindspeed-MLLM, a
distributed multimodal training framework tailored for Ascend NPUs. To maintain
training accuracy, we implement equivalent replacements for certain operators.
MindVL undergoes a three-phase training process, namely the warm-up phase,
multitask training phase, and supervised instruction tuning phase, to gradually
enhance its capabilities. This process starts with basic visual and multimodal
pre-training, followed by large-scale multiask trainging and instruction
tuning. We also adopt multimodal data packaging and hybrid parallelism
techniques, which significantly improve end-to-end training speed. To further
boost model performance, we specifically introduce test-time resolution search
and model weight averaging. Notably, despite using about 1/10 of the training
data required by Qwen2.5-VL, MindVL achieves performance on par with Qwen2.5-VL
in evaluations of general multimodal understanding and document/table
comprehension. Beyond overall scores, MindVL also delivers leading performance
in OCR assessments.