MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing

2509.22186v1 cs.CV, cs.CL 2025-09-30

Авторы:

Junbo Niu, Zheng Liu, Zhuangcheng Gu, Bin Wang, Linke Ouyang, Zhiyuan Zhao, Tao Chu, Tianyao He, Fan Wu, Qintong Zhang, Zhenjiang Jin, Guang Liang, Rui Zhang, Wenzheng Zhang, Yuan Qu, Zhifei Ren, Yuefeng Sun, Yuanhong Zheng, Dongsheng Ma, Zirui Tang, Boyu Niu, Ziyang Miao, Hejun Dong, Siyi Qian, Junyuan Zhang, Jingzhou Chen, Fangdong Wang, Xiaomeng Zhao, Liqun Wei, Wei Li, Shasha Wang, Ruiliang Xu, Yuanyuan Cao, Lu Chen, Qianqian Wu, Huaiyu Gu, Lindong Lu, Keming Wang, Dechen Lin, Guanlin Shen, Xuanhe Zhou, Linfeng Zhang, Yuhang Zang, Xiaoyi Dong, Jiaqi Wang, Bo Zhang, Lei Bai, Pei Chu, Weijia Li, Jiang Wu, Lijun Wu, Zhenxiang Li, Guangyu Wang, Zhongying Tu, Chao Xu, Kai Chen, Yu Qiao, Bowen Zhou, Dahua Lin, Wentao Zhang, Conghui He

Резюме на русском

## Контекст Область документооборота широко применяется в бизнесе, государственных организациях и исследовательских учреждениях. Однако обработка документов в высоком разрешении чрезвычайно сложна из-за высокой размерности изображений и богатой структуры данных. Существующие модели часто сталкиваются с проблемами эффективности и точности в распознавании сложных структур, таких как таблицы и формулы. Модель MinerU2.5 разработана для устранения этих проблем, предлагая эффективное решение для высококачественной обработки документов в высоком разрешении. ## Метод MinerU2.5 является визионно-языковой моделью с параметрами 1.2 миллиарда, работающей на базе двухэтапной стратегии парсинга: коарсе-то-файн. В первой стадии модель использует обработку на дешевеньких изображениях для выявления крупномасштабных структур, таких как колонки и блоки. Во второй стадии она применяет целевую распознавательную модель к оригинальному разрешению только для нужных отдельных областей. Для обучения и тестирования использовался собственный датасет, созданный на основе многочисленных практических задач документооборота, что обеспечивает модели широкий диапазон ситуаций. ## Результаты Модель была подвергнута тестированию на нескольких репрезентативных бенчмарках, включая PubLayNet, TableBank и FUNSD. Она превзошла другие модели, опередив их в точности распознавания структурных элементов, в том числе таблиц, формул и длинных текстов. Для этого она использует значительно меньшую вычислительную стоимость, обеспечивая высокую производительность и экономию ресурсов. ## Значимость MinerU2.5 может быть применена в различных сферах: от упрощения бизнес-процессов до помощи в обработке научных и медицинских документов. Она оптимальна для сценариев, где требуется высокая точность и эффективность работы с высокоразрешенными документами. Ее использование может снизить затраты на ресурсы и ускорить процессы работы с документами в различных отраслях. ## Выводы MinerU2.5 достигла выдающихся результатов в области распознавания сложных структур документов. Ее двухэтапная стратегия позволила объединить высокую точность с эффективностью. Будущие исследования будут направлены на усовершенствование модели для обработки более сложных сценариев документооборота и расширение ее приложений в различных отраслях.

Abstract

We introduce MinerU2.5, a 1.2B-parameter document parsing vision-language model that achieves state-of-the-art recognition accuracy while maintaining exceptional computational efficiency. Our approach employs a coarse-to-fine, two-stage parsing strategy that decouples global layout analysis from local content recognition. In the first stage, the model performs efficient layout analysis on downsampled images to identify structural elements, circumventing the computational overhead of processing high-resolution inputs. In the second stage, guided by the global layout, it performs targeted content recognition on native-resolution crops extracted from the original image, preserving fine-grained details in dense text, complex formulas, and tables. To support this strategy, we developed a comprehensive data engine that generates diverse, large-scale training corpora for both pretraining and fine-tuning. Ultimately, MinerU2.5 demonstrates strong document parsing ability, achieving state-of-the-art performance on multiple benchmarks, surpassing both general-purpose and domain-specific models across various recognition tasks, while maintaining significantly lower computational overhead.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация