MindVL: Towards Efficient and Effective Training of Multimodal Large Language Models on Ascend NPUs

2509.11662v1 cs.CV, cs.AI, cs.CL, eess.IV 2025-09-17
Авторы:

Feilong Chen, Yijiang Liu, Yi Huang, Hao Wang, Miren Tian, Ya-Qi Yu, Minghui Liao, Jihao Wu

Резюме на русском

#### Контекст Современное развитие искусственного интеллекта способствует появлению моделей, обладающих многомодальными возможностями. Однако обучение таких моделей становится сложным из-за необходимости обработки различных типов данных, включая текст, изображения и таблицы. Это приводит к высоким требованиям к вычислительной мощности и эффективности обучения. Особенно сложной является задача обеспечения высокого качества результатов при ограничении используемых ресурсов. #### Метод MindVL — это многомодальная модель текстового понимания, разработанная для обучения на Ascend NPUs. Она включает в себя собственное разрешение изображений, благодаря чему может обрабатывать изображения в их оригинальном состоянии, не прибегая к традиционному сегментированию на куски. Эта архитектура позволяет сохранить тонкие детали и глобальные характеристики, которые важны для обработки сложных графических контентов. Для эффективного использования Ascend NPUs разработана распределенная фреймворк Mindspeed-MLLM, который обеспечивает устойчивость и точность обучения. MindVL проходит трехфазное обучение: начальная фаза налаживает основы, затем происходит многозадачное обучение, а в конце — инструкционный tuning. Для повышения производительности во время обучения вводятся технологии мультимодального упакования данных и гибридного параллелизма. #### Результаты Эксперименты показали, что MindVL сохраняет высокую точность при меньшем потреблении данных и ресурсов. Она показала результаты схожие с Qwen2.5-VL в общем понимании мультимодальных данных, а также при парсинге документов и таблиц. Особенно выдает удаленные результаты на задачах OCR. Это демонстрирует инновационность архитектуры и ее высокую эффективность в решении задач, требующих глубокого понимания мультимодальных задач. #### Значимость MindVL может применяться в различных областях, таких как разработка систем понимания документов, табличных данных и OCR. Она не только экономит ресурсы, но и предоставляет высококачественные результаты. Это делает ее привлекательной для задач, где необходима эффективность вычислений и точность. #### Выводы MindVL позволяет достичь новых завершений в области обучения многомодальных моделей на малом объеме ресурсов. Будущие исследования будут сфокусированы на том, как расширить типы данных, поддерживаемых моделью, и доработать ее для обработки еще более глубоких задач.

Abstract

We propose MindVL, a multimodal large langauge model trained on Ascend NPUs. Similar to Qwen2.5-VL, MindVL adopts native-resolution Vision Transformers, which enables it to process images at their original variable resolutions. This design avoids the degradation caused by fixed-resolution tiling while preserving fine-grained details and global layouts, which is crucial for visually dense content such as complex charts and diagrams. To ensure the smooth training of MindVL on Ascend NPUs, we develop Mindspeed-MLLM, a distributed multimodal training framework tailored for Ascend NPUs. To maintain training accuracy, we implement equivalent replacements for certain operators. MindVL undergoes a three-phase training process, namely the warm-up phase, multitask training phase, and supervised instruction tuning phase, to gradually enhance its capabilities. This process starts with basic visual and multimodal pre-training, followed by large-scale multiask trainging and instruction tuning. We also adopt multimodal data packaging and hybrid parallelism techniques, which significantly improve end-to-end training speed. To further boost model performance, we specifically introduce test-time resolution search and model weight averaging. Notably, despite using about 1/10 of the training data required by Qwen2.5-VL, MindVL achieves performance on par with Qwen2.5-VL in evaluations of general multimodal understanding and document/table comprehension. Beyond overall scores, MindVL also delivers leading performance in OCR assessments.

Ссылки и действия

Связанные статьи

Multi-Agent Visual-Language Reasoning for Comprehensive Highway Scene Understand...

#### Контекст Дорожная среда представляет собой сложный синергетический процесс, в котором сочетаются физические, светл...

2025-08-27

Structured Prompting and Multi-Agent Knowledge Distillation for Traffic Video In...

#### Контекст Интеллектуальные транспортные системы (ITS) и автономное вождение требуют эффективного понимания городски...

2025-08-21