VARCO-VISION-2.0 Technical Report

2509.10105v1 cs.CV, cs.CL 2025-09-16

Авторы:

Young-rok Cha, Jeongho Ju, SunYoung Park, Jong-Hyeon Lee, Younghyun Yu, Youngjune Kim

Резюме на русском

## Контекст VARCO-VISION-2.0 — это продвинутый билингвальный модель визуально-языковых моделей (VLM) для языков корейский и английский, разработанная для решения проблемы понимания и интерпретации сложных визуально-текстовых данных. Она является улучшением предыдущей версии VARCO-VISION-14B и предлагает новые возможности, включая понимание нескольких изображений, локальное сопоставление текста с его местом на изображении (OCR с пространственным расположением), а также глубокое понимание текстовой информации в контексте сложных структур, таких как документы, таблицы и диаграммы. Важной особенностью является то, что модель не только понимает текст, но и знает, где он находится внутри изображения, что делает ее уникальной в своем классе. Модель разработана с учетом того, чтобы обеспечить более эффективное и точное взаимодействие между языком и визуальными данными. ## Метод Процесс разработки VARCO-VISION-2.0 основывается на четырёх этапах курсивного обучения с использованием методов оптимизации памяти. Модель построена на архитектуре, позволяющей ей обрабатывать изображения вместе с их текстовыми содержаниями и понимать логику положения текста внутри изображений. Она обладает мощным многомодальным взаимодействием, который позволяет ей решать задачи, включая локализацию текста, понимание сложных документов и определение координат текста внутри изображения. Более того, в модели используется новая методика улучшения безопасности и точности, которая обеспечивается при помощи оптимизации предпочтений, что повышает точность решений и снижает вероятность ошибок. ## Результаты Результаты экспериментов показали, что VARCO-VISION-2.0 эффективна в решении задач, связанных с визуально-языковым пониманием. Она достигла высоких показателей в многомодальном понимании изображений, включая документы, таблицы и диаграммы. Модель 14B-вариант показала себя на 8-м месте в лидербورде OpenCompass VLM среди моделей одного размера. Также была выпущена легковесная версия 1.7B, оптимизированная для работы на устройствах. Эти результаты доказали мощь модели в решении задач, которые требуют глубокого понимания взаимодействия между текстом и визуальными данными. ## Значимость VARCO-VISION-2.0 может применяться в различных областях, таких как документационный анализ, автоматическая система распознавания текста, локализация текста на изображениях и многие другие. Она предлагает значительные преимущества, включая улучшенное понимание языков, точность распознавания текста, а также безопасность и удобство использования. Важной особенностью я

Abstract

We introduce VARCO-VISION-2.0, an open-weight bilingual vision-language model (VLM) for Korean and English with improved capabilities compared to the previous model VARCO-VISION-14B. The model supports multi-image understanding for complex inputs such as documents, charts, and tables, and delivers layoutaware OCR by predicting both textual content and its spatial location. Trained with a four-stage curriculum with memory-efficient techniques, the model achieves enhanced multimodal alignment, while preserving core language abilities and improving safety via preference optimization. Extensive benchmark evaluations demonstrate strong spatial grounding and competitive results for both languages, with the 14B model achieving 8th place on the OpenCompass VLM leaderboard among models of comparable scale. Alongside the 14B-scale model, we release a 1.7B version optimized for on-device deployment. We believe these models advance the development of bilingual VLMs and their practical applications. Two variants of VARCO-VISION-2.0 are available at Hugging Face: a full-scale 14B model and a lightweight 1.7B model.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

VARCO-VISION-2.0 Technical Report

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация