MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment

2508.17290v1 cs.AI, cs.LG 2025-08-27
Авторы:

Omid Ghahroodi, Arshia Hemmat, Marzia Nouri, Seyed Mohammad Hadi Hosseini, Doratossadat Dastgheib, Mohammad Vali Sanian, Alireza Sahebi, Reihaneh Zohrabi, Mohammad Hossein Rohban, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah

Резюме на русском

## Контекст В последние годы видение-языковые модели (VLM) получили широкое распространение, однако большинство из них сосредоточены на английском языке, в то время как меньше внимания уделяется другим языкам. Это недостаток ставит под сомнение эффективность VLM в работе с многоязычными и культурно-уникальными задачами. Например, многие модели страдают от недостатка в представлении визуальных и текстовых данных на местных языках, что снижает их точность и кросс-культурную применимость. Чтобы заполнить этот пробел, мы представляем первую многоязычную-многорежимную датасет для оценки визуально-языковых моделей на персидском языке — MEENA (также известная как PersianMMMU). ## Метод MEENA состоит из примерно 7,500 задач на персидском языке и 3,000 задач на английском языке, покрывающих различные области: рассуждения, математику, физику, диаграммы, чарты и искусство и литературу на персидском языке. Данный датасет был создан с учетом разнообразия в области культуры и образования. Он включает метаданные, такие как уровень сложности и описательные ответы, чтобы обеспечить полноту и точность оценки. Датасет также включает в себя данные на двух языках (персидский и английский) для оценки кросс-языковой устойчивости моделей. Основные этапы построения датасета включали тщательную сборку данных, многоступенчатую проверку качества и интеграцию культурных особенностей. ## Результаты Мы проводили серию экспериментов для оценки производительности моделей на MEENA. Эксперименты включали: (1) общую производительность моделей, (2) внимание к изображениям, (3) вероятность генерировать нереальные ответы (hallucinations). Мы использовали различные модели, включая как существующие, так и наши собственные модели, для сравнения их показателей. Результаты показали, что хотя модели демонстрируют высокую точность в англоязычных задачах, их производительность на персидском языке значительно ниже, особенно в задачах, требующих культурной контекстности. ## Значимость MEENA открывает новые возможности для оценки VLM в многоязычной среде, особенно на персидском языке. Он может использоваться в различных областях, таких как образовательные тесты, кросс-культурная оценка знаний, и развитие многоязычных моделей глубокого обучения. Этот датасет также может способствовать улучшению моделей, увеличивая их устойчивость к культурным деталям, что в будущем может привести к более точной работе моделей в кросс-языковых задачах. ## Выводы MEENA — это первый датасет для оценки многоязычных-многорежимных

Abstract

Recent advancements in large vision-language models (VLMs) have primarily focused on English, with limited attention given to other languages. To address this gap, we introduce MEENA (also known as PersianMMMU), the first dataset designed to evaluate Persian VLMs across scientific, reasoning, and human-level understanding tasks. Our dataset comprises approximately 7,500 Persian and 3,000 English questions, covering a wide range of topics such as reasoning, mathematics, physics, diagrams, charts, and Persian art and literature. Key features of MEENA include: (1) diverse subject coverage spanning various educational levels, from primary to upper secondary school, (2) rich metadata, including difficulty levels and descriptive answers, (3) original Persian data that preserves cultural nuances, (4) a bilingual structure to assess cross-linguistic performance, and (5) a series of diverse experiments assessing various capabilities, including overall performance, the model's ability to attend to images, and its tendency to generate hallucinations. We hope this benchmark contributes to enhancing VLM capabilities beyond English.

Ссылки и действия