Ovis2.5 Technical Report

2508.11737v1 cs.CV, cs.AI, cs.CL, cs.LG 2025-08-19

Авторы:

Shiyin Lu, Yang Li, Yu Xia, Yuwei Hu, Shanshan Zhao, Yanqing Ma, Zhichao Wei, Yinglun Li, Lunhao Duan, Jianshan Zhao, Yuxuan Han, Haijun Li, Wanying Chen, Junke Tang, Chengkun Hou, Zhixing Du, Tianli Zhou, Wenjie Zhang, Huping Ding, Jiahe Li, Wen Li, Gui Hu, Yiliang Gu, Siran Yang, Jiamang Wang, Hailong Sun, Yibo Wang, Hui Sun, Jinlong Huang, Yuping He, Shengze Shi, Weihong Zhang, Guodong Zheng, Junpeng Jiang, Sensen Gao, Yi-Feng Wu, Sijia Chen, Yuhui Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

Резюме на русском

## Контекст Ovis2.5 является усовершенствованием Ovis2, разработанным для нативного разрешения визуального восприятия и сильного многомодального разума. Он интегрирует трансформер визуального восприятия нативного разрешения, обрабатывающий изображения в их первоначальных, переменных разрешениях. Это позволяет избежать ухудшения качества, связанного с фиксированным разрешением, и сохранить как тонкие детали, так и глобальный макет, что крайне важно для текстов с большим количеством информации, таких как сложные чарты. Дополнительно, модель обучена перейти за линейный цепочный способ мышления и выполнять рефлексию, включая самопроверку и корректировку. Эта расширенная функция доступна в качестве дополнительного "режима мышления" во время интерпретации, позволяя пользователям соотносить затраты на процессорное время с улучшением точности в сложных задачах. Обучение Ovis2.5 проходит через пятиэтажную систему курса, постепенно углубляющую свои навыки. Эта процедура начинается с основных визуальных и многомодальных предварительных тренировок, потом переходит к широкомасштабному тюнингу инструкций и заканчивается выравниванием и улучшением разума с помощью DPO и GRPO. Для эффективного масштабирования этих улучшений, авторы использовали мультимодальный пакетный данных и гибридную параллельность, что привело к значительному ускорению в общем виде. ## Метод Ovis2.5 использует совершенно новую конструкцию, включающую в себя трансформер визуального восприятия нативного разрешения, который обрабатывает изображения в их исходных разрешениях. Это позволяет избежать потерь деталей и глобального макета, которые могут возникнуть при использовании фиксированного разрешения. Более того, модель обучена выступать в режиме "мышления", что позволяет перемещаться за линейный цепочный способ мышления и выполнять рефлексию, включая самопроверку и корректировку. Этот режим может быть активирован во время интерпретации, чтобы улучшить точность на сложных задачах, при этом это может привести к увеличению затрат на процессорное время. Для обучения использовалась пятиэтажная система курса, которая постепенно углубляет навыки модели. Этот процесс начинается с основных визуальных и многомодальных предварительных тренировок, затем переходит к широкомасштабному тюнингу инструкций и завершается выравниванием и улучшением разума с помощью DPO и GRPO. ## Результаты Проведенные эксперименты показали, что Ovis2.5-9B показал средний результат 78.3 на OpenCompass multimodal leaderboard, что значительно превышает результаты Ovis2-8B и других открытых моделей с менее чем 40B параметра

Abstract

We present Ovis2.5, a successor to Ovis2 designed for native-resolution visual perception and strong multimodal reasoning. Ovis2.5 integrates a native-resolution vision transformer that processes images at their native, variable resolutions, avoiding the degradation from fixed-resolution tiling and preserving both fine detail and global layout -- crucial for visually dense content like complex charts. To strengthen reasoning, we train the model to move beyond linear chain-of-thought and perform reflection -- including self-checking and revision. This advanced capability is exposed as an optional "thinking mode" at inference time, allowing users to trade latency for enhanced accuracy on difficult inputs. The model is trained via a comprehensive five-phase curriculum that progressively builds its skills. The process begins with foundational visual and multimodal pretraining, advances through large-scale instruction tuning, and culminates in alignment and reasoning enhancement using DPO and GRPO. To scale these upgrades efficiently, we employ multimodal data packing and hybrid parallelism, yielding a significant end-to-end speedup. We release two open-source models: Ovis2.5-9B and Ovis2.5-2B. The latter continues the "small model, big performance" philosophy of Ovis2, making it ideal for resource-constrained, on-device scenarios. On the OpenCompass multimodal leaderboard, Ovis2.5-9B averages 78.3, marking a substantial improvement over its predecessor, Ovis2-8B, and achieving state-of-the-art results among open-source MLLMs in the sub-40B parameter range; Ovis2.5-2B scores 73.9, establishing SOTA for its size. Beyond aggregate scores, Ovis2.5 achieves leading results on STEM benchmarks, exhibits strong capabilities on grounding and video tasks, and achieves open-source SOTA at its scale for complex chart analysis.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Ovis2.5 Technical Report

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Sel...

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmente...

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Training-Free Diffusion Priors for Text-to-Image Generation via Optimization-bas...

Навигация