KRETA: A Benchmark for Korean Reading and Reasoning in Text-Rich VQA Attuned to Diverse Visual Contexts
2508.19944v1
cs.CV, cs.CL
2025-08-29
Авторы:
Taebaek Hwang, Minseo Kim, Gisang Lee, Seonuk Kim, Hyunjun Eun
Резюме на русском
#### Контекст
Компетентное понимание и вывод при помощи языково-визуальных моделей (Vision-Language Models, VLM) является важной проблемой в области искусственного интеллекта. Особенно трудными оказываются задачи, которые требуют понимания текстового контента в визуальных контекстах. Хотя в области Vision-Language Understanding (VLU) существуют многочисленные данные и бенчмарки для высокоресурсных языков, таких как английский, для низкоресурсных языков, таких как корейский, такие данные отсутствуют. Это вызывает значительные ограничения в сравнительном анализе и развитии VLM для корейского языка. Для заполнения этой целевой зоны мы предлагаем KRETA (Korean Reading and Reasoning in Text-rich VQA Attuned to Diverse Visual Contexts) — новый бенчмарк, который включает в себя тестовые среды для оценки умений понимания текстов и вывода в текст-богатых визуальных задачах.
#### Метод
KRETA представляет собой комплексный подход к созданию текстово-богатых бенчмарков для языка корейского. Мы разработали собственную текстовую генерацию VQA, которая оптимизирована для текстово-богатых задач. Метод включает:
1. Шаг задекларации: начальная версия текстовой VQA.
2. Шаг декомпозиции изображения: разбор изображения на отдельные части, чтобы получить ключевые сведения.
3. Шаг вывода: применение логических выводов для получения ответа.
4. Шаг абстрагирования: генерирование новых вопросов и ответов для увеличения модели.
Эта процедура обеспечивает высокую точность и репрезентативность данных для KRETA. Бенчмарк покрывает 15 различных доменов и 26 типов изображений, чтобы убедиться в широком аспекте вывода.
#### Результаты
Мы провели эксперименты с KRETA и сравнили результаты с существующими вариантами текстовых бенчмарков. Наши тесты показали, что KRETA обеспечивает высокую точность и позволяет лучше оценить модели на текстовых задачах. Мы также были в состоянии выявить некоторые ограничения существующих моделей, которые не были ранее обнаружены. Эти результаты подтверждают значительный потенциал KRETA в повышении уровня корейского VLM.
#### Значимость
KRETA оказывается приложимым в различных областях, в том числе в робототехнике, медицине и образовании. Его преимущества заключаются в том, что он обеспечивает более точную оценку моделей VLM для языка корейского, что значительно увеличивает степень понимания текста в визуальных контекстах. Будущие исследования будут сосредоточены на расширении KRETA для других низкоресурсных языков и интеграции многоязычных моделей для улучшения межъязыковой поддержки VLM.
#### Выводы
KRETA является значительным шагом в развитии текстово-богатых б
Abstract
Understanding and reasoning over text within visual contexts poses a
significant challenge for Vision-Language Models (VLMs), given the complexity
and diversity of real-world scenarios. To address this challenge, text-rich
Visual Question Answering (VQA) datasets and benchmarks have emerged for
high-resource languages like English. However, a critical gap persists for
low-resource languages such as Korean, where the lack of comprehensive
benchmarks hinders robust model evaluation and comparison. To bridge this gap,
we introduce KRETA, a benchmark for Korean Reading and rEasoning in Text-rich
VQA Attuned to diverse visual contexts. KRETA facilitates an in-depth
evaluation of both visual text understanding and reasoning capabilities, while
also supporting a multifaceted assessment across 15 domains and 26 image types.
Additionally, we introduce a semi-automated VQA generation pipeline
specifically optimized for text-rich settings, leveraging refined stepwise
image decomposition and a rigorous seven-metric evaluation protocol to ensure
data quality. While KRETA is tailored for Korean, we hope our adaptable and
extensible pipeline will facilitate the development of similar benchmarks in
other languages, thereby accelerating multilingual VLM research. The code and
dataset for KRETA are available at https://github.com/tabtoyou/KRETA.
Ссылки и действия
Дополнительные ресурсы: