VARCO-VISION-2.0 Technical Report

2509.10105v2 cs.CV, cs.CL 2025-09-17

Авторы:

Young-rok Cha, Jeongho Ju, SunYoung Park, Jong-Hyeon Lee, Younghyun Yu, Youngjune Kim

Резюме на русском

## Контекст В настоящее время становится все более важной задачей развития моделей, которые могут понимать и обрабатывать изображения и текст в различных языках. Одной из таких моделей является VARCO-VISION-2.0, улучшенная версия предыдущей модели VARCO-VISION-14B. Эта модель предназначена для работы с билингвальными визуально-языковыми задачами, такими как многоизображенческое понимание, в том числе документы, таблицы и диаграммы, а также распознавание штрих-кодов. Она может выполнять локализованное распознавание текста, определяя как текстовое содержимое, так и его расположение в пространстве. Модель была тренирована с использованием четырехэтапной курсивной модели, включающей методы эффективного использования памяти, что позволяет ей быть эффективной и удобной в использовании. ## Метод В создании VARCO-VISION-2.0 был использован новый представленческий метод, который позволяет модели не только понимать содержимое изображений, но и их расположение в пространстве. Модель была обучена с использованием памяти-оптимизированных методов, что позволяет ей обрабатывать текст и изображения в одно время. Она также может выполнять локализованное распознавание текста, что означает, что она может распознавать текст и учитывать его расположение в документе или изображении. Модель также поддерживает многоизображенческое понимание, что делает ее эффективной для работы с разнообразными визуально-текстовыми данными. ## Результаты Модель была протестирована на нескольких бенчмарк-задачах, таких как OpenCompass VLM, где она показала высокую эффективность. Она достигла 8-го места в лидерборде по сравнению с моделями схожего размера. Модель также продемонстрировала способность выполнять локализованное распознавание текста, а также эффективность в многоизображенческом понимании. Однако, некоторые результаты указывают на некоторые проблемы в специфике языков, в частности в отношении грамматики и синтаксиса. ## Значимость VARCO-VISION-2.0 является значимой для развития билингвальных визуально-языковых моделей (VLM). Она может применяться в различных областях, таких как документооборот, анализ текстов, автоматизация штрих-кодов и другие виды билингвальных обработок текста и изображений. Эта модель также добивается высокого уровня безопасности и целесообразности, что делает ее привлекательной для промышленных и научных применений. ## Выводы Модель VARCO-VISION-2.0 достигла существенных улучшений по сравнению с предыдущей версией. Она может работать с многоизображенческим пониманием, в том числе документов, таблиц и диаграм

Abstract

We introduce VARCO-VISION-2.0, an open-weight bilingual vision-language model (VLM) for Korean and English with improved capabilities compared to the previous model VARCO-VISION-14B. The model supports multi-image understanding for complex inputs such as documents, charts, and tables, and delivers layoutaware OCR by predicting both textual content and its spatial location. Trained with a four-stage curriculum with memory-efficient techniques, the model achieves enhanced multimodal alignment, while preserving core language abilities and improving safety via preference optimization. Extensive benchmark evaluations demonstrate strong spatial grounding and competitive results for both languages, with the 14B model achieving 8th place on the OpenCompass VLM leaderboard among models of comparable scale. Alongside the 14B-scale model, we release a 1.7B version optimized for on-device deployment. We believe these models advance the development of bilingual VLMs and their practical applications. Two variants of VARCO-VISION-2.0 are available at Hugging Face: a full-scale 14B model and a lightweight 1.7B model.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

VARCO-VISION-2.0 Technical Report

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация