## Контекст
В последние годы стало ясно, что понимание множества изображений (multi-image understanding) является кллючевым заданием в области многомодальных многообразий. Особенно важно это для мультимодальных моделей, которые обрабатывают изображения в контексте текста. Хотя существуют многочисленные данные, построенные на основе английского языка, например, C-SVCD и MDMMC, не было ни одного значительного датасета, построенного на основе китайского языка. Этот пробел в моделях китайского языка становится особенно важным, учитывая, что китайский язык является одним из наиболее широко распространенных языков в мире. Чтобы заполнить этот пробел, был представлен датасет RealBench, первый китайский мультимодальный датасет для понимания нескольких изображений, который содержит 9393 выборок и 69 910 изображений. Он был создан, чтобы провести исследования в области многомодальных моделей, которые могут работать с китайскими текстами и изображениями.
## Метод
RealBench был построен на основе реального пользовательского контента, чтобы обеспечить высокую применимость к реальной ситуации. Он включает в себя картинки разных разрешений и структур, чтобы увеличить сложность понимания. Кроме того, он содержит 9393 выборок, каждая из которых содержит несколько изображений, текстов и метаданных. Датасет был создан, чтобы охватить широкий диапазон сценариев, от квартир до среды природы, что делает его реалистичным и сложным для моделей. Использование многомодальных моделей, таких как LLMs, позволяет провести эксперименты и измерить точность в разных условиях.
## Результаты
Чтобы оценить RealBench, были проведены эксперименты с 21 моделями, включая большие модели с открытым исходным кодом, такие как Visual and Video LLMs, а также закрытые модели, которые поддерживают мультимодальные входы. Эксперименты показали, что даже самые мощные модели все еще сталкиваются с трудностями при обработке китайских мультимодальных изображений. Открытые модели показали среднюю ошибку в 71.8% по сравнению с закрытыми. Эти результаты подтверждают, что RealBench представляет собой важный исследовательский инструмент для изучения многомодальных моделей, особенно в контексте китайского языка.
## Значимость
RealBench может быть использован в различных областях, таких как распознавание языка, обнаружение объектов, мультимодальное понимание и видеоанализ. Он предоставляет новые возможности для исследований в области мультимодального понимания, особенно в задачах, в которых изображения и текст должны быть обработаны одновременно. Это датасет предоставляет значительный потенциал для развития моделей, которые могут работать с ки