RealBench: A Chinese Multi-image Understanding Benchmark Close to Real-world Scenarios

2509.17421v1 cs.CL, cs.MM 2025-09-24
Авторы:

Fei Zhao, Chengqiang Lu, Yufan Shen, Qimeng Wang, Yicheng Qian, Haoxin Zhang, Yan Gao, Yi Wu, Yao Hu, Zhen Wu, Shangyu Xing, Xinyu Dai

Резюме на русском

## Контекст В последние годы стало ясно, что понимание множества изображений (multi-image understanding) является кллючевым заданием в области многомодальных многообразий. Особенно важно это для мультимодальных моделей, которые обрабатывают изображения в контексте текста. Хотя существуют многочисленные данные, построенные на основе английского языка, например, C-SVCD и MDMMC, не было ни одного значительного датасета, построенного на основе китайского языка. Этот пробел в моделях китайского языка становится особенно важным, учитывая, что китайский язык является одним из наиболее широко распространенных языков в мире. Чтобы заполнить этот пробел, был представлен датасет RealBench, первый китайский мультимодальный датасет для понимания нескольких изображений, который содержит 9393 выборок и 69 910 изображений. Он был создан, чтобы провести исследования в области многомодальных моделей, которые могут работать с китайскими текстами и изображениями. ## Метод RealBench был построен на основе реального пользовательского контента, чтобы обеспечить высокую применимость к реальной ситуации. Он включает в себя картинки разных разрешений и структур, чтобы увеличить сложность понимания. Кроме того, он содержит 9393 выборок, каждая из которых содержит несколько изображений, текстов и метаданных. Датасет был создан, чтобы охватить широкий диапазон сценариев, от квартир до среды природы, что делает его реалистичным и сложным для моделей. Использование многомодальных моделей, таких как LLMs, позволяет провести эксперименты и измерить точность в разных условиях. ## Результаты Чтобы оценить RealBench, были проведены эксперименты с 21 моделями, включая большие модели с открытым исходным кодом, такие как Visual and Video LLMs, а также закрытые модели, которые поддерживают мультимодальные входы. Эксперименты показали, что даже самые мощные модели все еще сталкиваются с трудностями при обработке китайских мультимодальных изображений. Открытые модели показали среднюю ошибку в 71.8% по сравнению с закрытыми. Эти результаты подтверждают, что RealBench представляет собой важный исследовательский инструмент для изучения многомодальных моделей, особенно в контексте китайского языка. ## Значимость RealBench может быть использован в различных областях, таких как распознавание языка, обнаружение объектов, мультимодальное понимание и видеоанализ. Он предоставляет новые возможности для исследований в области мультимодального понимания, особенно в задачах, в которых изображения и текст должны быть обработаны одновременно. Это датасет предоставляет значительный потенциал для развития моделей, которые могут работать с ки

Abstract

While various multimodal multi-image evaluation datasets have been emerged, but these datasets are primarily based on English, and there has yet to be a Chinese multi-image dataset. To fill this gap, we introduce RealBench, the first Chinese multimodal multi-image dataset, which contains 9393 samples and 69910 images. RealBench distinguishes itself by incorporating real user-generated content, ensuring high relevance to real-world applications. Additionally, the dataset covers a wide variety of scenes, image resolutions, and image structures, further increasing the difficulty of multi-image understanding. Ultimately, we conduct a comprehensive evaluation of RealBench using 21 multimodal LLMs of different sizes, including closed-source models that support multi-image inputs as well as open-source visual and video models. The experimental results indicate that even the most powerful closed-source models still face challenges when handling multi-image Chinese scenarios. Moreover, there remains a noticeable performance gap of around 71.8\% on average between open-source visual/video models and closed-source models. These results show that RealBench provides an important research foundation for further exploring multi-image understanding capabilities in the Chinese context.

Ссылки и действия

Связанные статьи

DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Und...

## Контекст Данная работа посвящена развитию DRISHTIKON — первого в своём роде многомодального и многоязыкового бенчмарк...

2025-09-25

Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding

## Контекст Sarcasm detection является сложной задачей в области natural language understanding (NLU), так как sarcasm ч...

2025-09-23

Benchmarking and Improving LVLMs on Event Extraction from Multimedia Documents

## Контекст Современный мир охвачен всемиконный потоком мультимедийной информации. Это создает необходимость в развитии...

2025-09-18

Text2Sign Diffusion: A Generative Approach for Gloss-Free Sign Language Producti...

## Контекст Sign language production (SLP) является ключевым вопросом в области интеллектуальных технологий для продвиж...

2025-09-17