VARCO-VISION-2.0 Technical Report
2509.10105v1
cs.CV, cs.CL
2025-09-16
Авторы:
Young-rok Cha, Jeongho Ju, SunYoung Park, Jong-Hyeon Lee, Younghyun Yu, Youngjune Kim
Резюме на русском
## Контекст
VARCO-VISION-2.0 — это продвинутый билингвальный модель визуально-языковых моделей (VLM) для языков корейский и английский, разработанная для решения проблемы понимания и интерпретации сложных визуально-текстовых данных. Она является улучшением предыдущей версии VARCO-VISION-14B и предлагает новые возможности, включая понимание нескольких изображений, локальное сопоставление текста с его местом на изображении (OCR с пространственным расположением), а также глубокое понимание текстовой информации в контексте сложных структур, таких как документы, таблицы и диаграммы. Важной особенностью является то, что модель не только понимает текст, но и знает, где он находится внутри изображения, что делает ее уникальной в своем классе. Модель разработана с учетом того, чтобы обеспечить более эффективное и точное взаимодействие между языком и визуальными данными.
## Метод
Процесс разработки VARCO-VISION-2.0 основывается на четырёх этапах курсивного обучения с использованием методов оптимизации памяти. Модель построена на архитектуре, позволяющей ей обрабатывать изображения вместе с их текстовыми содержаниями и понимать логику положения текста внутри изображений. Она обладает мощным многомодальным взаимодействием, который позволяет ей решать задачи, включая локализацию текста, понимание сложных документов и определение координат текста внутри изображения. Более того, в модели используется новая методика улучшения безопасности и точности, которая обеспечивается при помощи оптимизации предпочтений, что повышает точность решений и снижает вероятность ошибок.
## Результаты
Результаты экспериментов показали, что VARCO-VISION-2.0 эффективна в решении задач, связанных с визуально-языковым пониманием. Она достигла высоких показателей в многомодальном понимании изображений, включая документы, таблицы и диаграммы. Модель 14B-вариант показала себя на 8-м месте в лидербورде OpenCompass VLM среди моделей одного размера. Также была выпущена легковесная версия 1.7B, оптимизированная для работы на устройствах. Эти результаты доказали мощь модели в решении задач, которые требуют глубокого понимания взаимодействия между текстом и визуальными данными.
## Значимость
VARCO-VISION-2.0 может применяться в различных областях, таких как документационный анализ, автоматическая система распознавания текста, локализация текста на изображениях и многие другие. Она предлагает значительные преимущества, включая улучшенное понимание языков, точность распознавания текста, а также безопасность и удобство использования. Важной особенностью я
Abstract
We introduce VARCO-VISION-2.0, an open-weight bilingual vision-language model
(VLM) for Korean and English with improved capabilities compared to the
previous model VARCO-VISION-14B. The model supports multi-image understanding
for complex inputs such as documents, charts, and tables, and delivers
layoutaware OCR by predicting both textual content and its spatial location.
Trained with a four-stage curriculum with memory-efficient techniques, the
model achieves enhanced multimodal alignment, while preserving core language
abilities and improving safety via preference optimization. Extensive benchmark
evaluations demonstrate strong spatial grounding and competitive results for
both languages, with the 14B model achieving 8th place on the OpenCompass VLM
leaderboard among models of comparable scale. Alongside the 14B-scale model, we
release a 1.7B version optimized for on-device deployment. We believe these
models advance the development of bilingual VLMs and their practical
applications. Two variants of VARCO-VISION-2.0 are available at Hugging Face: a
full-scale 14B model and a lightweight 1.7B model.
Ссылки и действия
Дополнительные ресурсы: