Mind the (Language) Gap: Towards Probing Numerical and Cross-Lingual Limits of LVLMs

2508.17334v2 cs.CV, cs.AI, cs.CL, cs.LG 2025-08-27

Авторы:

Somraj Gautam, Abhirama Subramanyam Penamakuri, Abhishek Bhandari, Gaurav Harit

Резюме на русском

#################### ## Контекст #################### В последние годы появилось множество значительных прогрессов в области бо LARGE VISION-LANGUAGE MODELS (LVLMs), которые обеспечивают мощные возможности в анализе и понимании изображений и текста. Однако существуют значительные недостатки в их понимании структурированных данных, таких как таблицы и графики, а также в их производительности при решении задач, требующих продвинутого математического моделирования. Эти проблемы видны особенно в решении задач, которые требуют расширенного знания, таких как оценка данных, экстраполяция и логическое связывание. Например, существуют нерешительные результаты в области визуального анализа спортивных статистических данных. Этот исследовательский подход исследует эти проблемы в контексте спортивных статистических данных, особенно в связи с их значимостью в решении характеристик спортивных матчей. #################### ## Метод #################### Чтобы устранить эти проблемы, мы предлагаем **MMCRICBENCH-3K**, который представляет собой бенчмарк для оценки производительности LVLMs на Visual Question Answering (VQA) задачах с использованием спортивных статистических данных. Мы генерируем 1 463 синтетических изображений скорок, как в ODIs, так и в T20 и Test-форматах, и создаем 1 500 вопросов-ответов на английском языке, которые требуют развитого анализа, такого как вычисления счета, прогнозирование результатов и логическое сопоставление. Датасет делится на две подвыборки: **MMCRICBENCH-E-1.5K**, содержащий изображения скорок на английском языке, и **MMCRICBENCH-H-1.5K**, содержащий изображения скорок на хинди. Измерения выполняются на английском языке, чтобы обеспечить сравнение в рамках одного языка, но с разными стилями ввода. Датасет предоставляет структурированные таблицы, в которых ключевые статистические метрики определяют трудные задачи моделирования. #################### ## Результаты #################### Мы проводим эксперименты с популярными LVLMs, включая GPT-4o и Qwen2.5VL. Результаты показали, что даже на английском языке, где LVLMs получают наибольший объем данных для обучения, модели сталкиваются с значительными недостатками в продвинутых задачах по логическому восприятию и вычислениям. На хинди-подвыборке, где такие модели сталкиваются с узкими наборами данных, производительность значительно ухудшается. Эти результаты также подтверждают, что LVLMs имеют ограниченную способность к контексту, требующему расширенного знания. Отчеты показывают, что проблема во взаимодействии моделей с необходимыми структурными данными и контекстом до сих пор не решена. #################### ## Значи

Abstract

We introduce MMCRICBENCH-3K, a benchmark for Visual Question Answering (VQA) on cricket scorecards, designed to evaluate large vision-language models (LVLMs) on complex numerical and cross-lingual reasoning over semi-structured tabular images. MMCRICBENCH-3K comprises 1,463 synthetically generated scorecard images from ODI, T20, and Test formats, accompanied by 1,500 English QA pairs. It includes two subsets: MMCRICBENCH-E-1.5K, featuring English scorecards, and MMCRICBENCH-H-1.5K, containing visually similar Hindi scorecards, with all questions and answers kept in English to enable controlled cross-script evaluation. The task demands reasoning over structured numerical data, multi-image context, and implicit domain knowledge. Empirical results show that even state-of-the-art LVLMs, such as GPT-4o and Qwen2.5VL, struggle on the English subset despite it being their primary training language and exhibit a further drop in performance on the Hindi subset. This reveals key limitations in structure-aware visual text understanding, numerical reasoning, and cross-lingual generalization. The dataset is publicly available via Hugging Face at https://huggingface.co/datasets/DIALab/MMCricBench, to promote LVLM research in this direction.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Mind the (Language) Gap: Towards Probing Numerical and Cross-Lingual Limits of LVLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Sel...

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmente...

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Training-Free Diffusion Priors for Text-to-Image Generation via Optimization-bas...

Навигация