KRETA: A Benchmark for Korean Reading and Reasoning in Text-Rich VQA Attuned to Diverse Visual Contexts

2508.19944v1 cs.CV, cs.CL 2025-08-29

Авторы:

Taebaek Hwang, Minseo Kim, Gisang Lee, Seonuk Kim, Hyunjun Eun

Резюме на русском

#### Контекст Компетентное понимание и вывод при помощи языково-визуальных моделей (Vision-Language Models, VLM) является важной проблемой в области искусственного интеллекта. Особенно трудными оказываются задачи, которые требуют понимания текстового контента в визуальных контекстах. Хотя в области Vision-Language Understanding (VLU) существуют многочисленные данные и бенчмарки для высокоресурсных языков, таких как английский, для низкоресурсных языков, таких как корейский, такие данные отсутствуют. Это вызывает значительные ограничения в сравнительном анализе и развитии VLM для корейского языка. Для заполнения этой целевой зоны мы предлагаем KRETA (Korean Reading and Reasoning in Text-rich VQA Attuned to Diverse Visual Contexts) — новый бенчмарк, который включает в себя тестовые среды для оценки умений понимания текстов и вывода в текст-богатых визуальных задачах. #### Метод KRETA представляет собой комплексный подход к созданию текстово-богатых бенчмарков для языка корейского. Мы разработали собственную текстовую генерацию VQA, которая оптимизирована для текстово-богатых задач. Метод включает: 1. Шаг задекларации: начальная версия текстовой VQA. 2. Шаг декомпозиции изображения: разбор изображения на отдельные части, чтобы получить ключевые сведения. 3. Шаг вывода: применение логических выводов для получения ответа. 4. Шаг абстрагирования: генерирование новых вопросов и ответов для увеличения модели. Эта процедура обеспечивает высокую точность и репрезентативность данных для KRETA. Бенчмарк покрывает 15 различных доменов и 26 типов изображений, чтобы убедиться в широком аспекте вывода. #### Результаты Мы провели эксперименты с KRETA и сравнили результаты с существующими вариантами текстовых бенчмарков. Наши тесты показали, что KRETA обеспечивает высокую точность и позволяет лучше оценить модели на текстовых задачах. Мы также были в состоянии выявить некоторые ограничения существующих моделей, которые не были ранее обнаружены. Эти результаты подтверждают значительный потенциал KRETA в повышении уровня корейского VLM. #### Значимость KRETA оказывается приложимым в различных областях, в том числе в робототехнике, медицине и образовании. Его преимущества заключаются в том, что он обеспечивает более точную оценку моделей VLM для языка корейского, что значительно увеличивает степень понимания текста в визуальных контекстах. Будущие исследования будут сосредоточены на расширении KRETA для других низкоресурсных языков и интеграции многоязычных моделей для улучшения межъязыковой поддержки VLM. #### Выводы KRETA является значительным шагом в развитии текстово-богатых б

Abstract

Understanding and reasoning over text within visual contexts poses a significant challenge for Vision-Language Models (VLMs), given the complexity and diversity of real-world scenarios. To address this challenge, text-rich Visual Question Answering (VQA) datasets and benchmarks have emerged for high-resource languages like English. However, a critical gap persists for low-resource languages such as Korean, where the lack of comprehensive benchmarks hinders robust model evaluation and comparison. To bridge this gap, we introduce KRETA, a benchmark for Korean Reading and rEasoning in Text-rich VQA Attuned to diverse visual contexts. KRETA facilitates an in-depth evaluation of both visual text understanding and reasoning capabilities, while also supporting a multifaceted assessment across 15 domains and 26 image types. Additionally, we introduce a semi-automated VQA generation pipeline specifically optimized for text-rich settings, leveraging refined stepwise image decomposition and a rigorous seven-metric evaluation protocol to ensure data quality. While KRETA is tailored for Korean, we hope our adaptable and extensible pipeline will facilitate the development of similar benchmarks in other languages, thereby accelerating multilingual VLM research. The code and dataset for KRETA are available at https://github.com/tabtoyou/KRETA.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

KRETA: A Benchmark for Korean Reading and Reasoning in Text-Rich VQA Attuned to Diverse Visual Contexts

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация