MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams
2508.06851v1
cs.AI, cs.CY
2025-08-14
Авторы:
Pengfei Zhou, Xiaopeng Peng, Fanrui Zhang, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Zekai Li, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang
Резюме на русском
## Контекст
Многоинтенсивные модели языка (МЛМ), которые объединяют языковые и визуальные сигналы для решения задач, являются ключевым инструментом для продвижения искусственного общего разума (АОР). Однако существующие бенчмарки, используемые для оценки интеллекта МЛМ, имеют ограниченный размер, ограниченное покрытие и неструктурированные данные, что приводит к простым и неполным оценкам. Для заполнения этой разрыва мы предлагаем MDK12-Bench — большой государственный бенчмарк, созданный на основе реальных экзаменов K-12, охватывающий шесть дисциплин, 141 тысячи экземпляров и 6,225 знаний, организованных в шестиуровневую таксономию. Он покрывает пять форматов вопросов с присутствием сложности и временных изменений. Это позволяет проводить сложные оценки, охватывающие 4 аспекта: уровни сложности, временные (кросс-годовые) изменения, контекстные изменения и аспекты, основывающиеся на знаниях. Мы предлагаем динамический фреймворк для оценки, который включает незнакомые визуальные, текстовые и форматы вопросов, чтобы повысить уровень отчуждения и улучшить объективность и долговечность бенчмарка. Также мы рассматриваем знание-указание поддерживаемой генерации (KP-RAG) для изучения роли знаний в решении задач. Основные выводы показывают ограничения текущих МЛМ в нескольких аспектах и дают рекомендации для повышения их устойчивости, толерантности и вклада в область AI-поддерживаемого обучения.
## Метод
Мы разработали MDK12-Bench, который включает 141 тысяч задач, распределенных по шести дисциплинам стандарта K-12, и включает 6,225 знаний, организованных в шестиуровневую таксономию. Выборка включает в себя пять форматов вопросов (мультиплейр, мультипозиционный, сравнение, текстовый, графический) с добавлением временных и сложностных характеристик. Мы предлагаем динамический фреймворк для оценки, который включает незнакомые визуальные, текстовые и форматы вопросов, чтобы повысить уровень отчуждения и улучшить объективность и долговечность бенчмарка. Мы также исследуем знание-указание поддерживаемой генерации (KP-RAG) для изучения роли знаний в решении задач, включая различные типы визуальной и текстовой информации.
## Результаты
Мы провели эксперименты с 12 МЛМ, включая различные модели с разным количеством параметров и типов входных данных. Мы оценивали их по уровню сложности, временным изменениям, контекстным изменениям и их возможности к знаниям-указаниям. Наши результаты показали, что ни одна модель не показала высокую производите
Abstract
Multimodal large language models (MLLMs), which integrate language and visual
cues for problem-solving, are crucial for advancing artificial general
intelligence (AGI). However, current benchmarks for measuring the intelligence
of MLLMs suffer from limited scale, narrow coverage, and unstructured
knowledge, offering only static and undifferentiated evaluations. To bridge
this gap, we introduce MDK12-Bench, a large-scale multidisciplinary benchmark
built from real-world K-12 exams spanning six disciplines with 141K instances
and 6,225 knowledge points organized in a six-layer taxonomy. Covering five
question formats with difficulty and year annotations, it enables comprehensive
evaluation to capture the extent to which MLLMs perform over four dimensions:
1) difficulty levels, 2) temporal (cross-year) shifts, 3) contextual shifts,
and 4) knowledge-driven reasoning. We propose a novel dynamic evaluation
framework that introduces unfamiliar visual, textual, and question form shifts
to challenge model generalization while improving benchmark objectivity and
longevity by mitigating data contamination. We further evaluate knowledge-point
reference-augmented generation (KP-RAG) to examine the role of knowledge in
problem-solving. Key findings reveal limitations in current MLLMs in multiple
aspects and provide guidance for enhancing model robustness, interpretability,
and AI-assisted education.
Ссылки и действия
Дополнительные ресурсы: