VARCO-VISION-2.0 Technical Report
2509.10105v2
cs.CV, cs.CL
2025-09-17
Авторы:
Young-rok Cha, Jeongho Ju, SunYoung Park, Jong-Hyeon Lee, Younghyun Yu, Youngjune Kim
Резюме на русском
## Контекст
В настоящее время становится все более важной задачей развития моделей, которые могут понимать и обрабатывать изображения и текст в различных языках. Одной из таких моделей является VARCO-VISION-2.0, улучшенная версия предыдущей модели VARCO-VISION-14B. Эта модель предназначена для работы с билингвальными визуально-языковыми задачами, такими как многоизображенческое понимание, в том числе документы, таблицы и диаграммы, а также распознавание штрих-кодов. Она может выполнять локализованное распознавание текста, определяя как текстовое содержимое, так и его расположение в пространстве. Модель была тренирована с использованием четырехэтапной курсивной модели, включающей методы эффективного использования памяти, что позволяет ей быть эффективной и удобной в использовании.
## Метод
В создании VARCO-VISION-2.0 был использован новый представленческий метод, который позволяет модели не только понимать содержимое изображений, но и их расположение в пространстве. Модель была обучена с использованием памяти-оптимизированных методов, что позволяет ей обрабатывать текст и изображения в одно время. Она также может выполнять локализованное распознавание текста, что означает, что она может распознавать текст и учитывать его расположение в документе или изображении. Модель также поддерживает многоизображенческое понимание, что делает ее эффективной для работы с разнообразными визуально-текстовыми данными.
## Результаты
Модель была протестирована на нескольких бенчмарк-задачах, таких как OpenCompass VLM, где она показала высокую эффективность. Она достигла 8-го места в лидерборде по сравнению с моделями схожего размера. Модель также продемонстрировала способность выполнять локализованное распознавание текста, а также эффективность в многоизображенческом понимании. Однако, некоторые результаты указывают на некоторые проблемы в специфике языков, в частности в отношении грамматики и синтаксиса.
## Значимость
VARCO-VISION-2.0 является значимой для развития билингвальных визуально-языковых моделей (VLM). Она может применяться в различных областях, таких как документооборот, анализ текстов, автоматизация штрих-кодов и другие виды билингвальных обработок текста и изображений. Эта модель также добивается высокого уровня безопасности и целесообразности, что делает ее привлекательной для промышленных и научных применений.
## Выводы
Модель VARCO-VISION-2.0 достигла существенных улучшений по сравнению с предыдущей версией. Она может работать с многоизображенческим пониманием, в том числе документов, таблиц и диаграм
Abstract
We introduce VARCO-VISION-2.0, an open-weight bilingual vision-language model
(VLM) for Korean and English with improved capabilities compared to the
previous model VARCO-VISION-14B. The model supports multi-image understanding
for complex inputs such as documents, charts, and tables, and delivers
layoutaware OCR by predicting both textual content and its spatial location.
Trained with a four-stage curriculum with memory-efficient techniques, the
model achieves enhanced multimodal alignment, while preserving core language
abilities and improving safety via preference optimization. Extensive benchmark
evaluations demonstrate strong spatial grounding and competitive results for
both languages, with the 14B model achieving 8th place on the OpenCompass VLM
leaderboard among models of comparable scale. Alongside the 14B-scale model, we
release a 1.7B version optimized for on-device deployment. We believe these
models advance the development of bilingual VLMs and their practical
applications. Two variants of VARCO-VISION-2.0 are available at Hugging Face: a
full-scale 14B model and a lightweight 1.7B model.
Ссылки и действия
Дополнительные ресурсы: