MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams

2508.06851v1 cs.AI, cs.CY 2025-08-14
Авторы:

Pengfei Zhou, Xiaopeng Peng, Fanrui Zhang, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Zekai Li, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang

Резюме на русском

## Контекст Многоинтенсивные модели языка (МЛМ), которые объединяют языковые и визуальные сигналы для решения задач, являются ключевым инструментом для продвижения искусственного общего разума (АОР). Однако существующие бенчмарки, используемые для оценки интеллекта МЛМ, имеют ограниченный размер, ограниченное покрытие и неструктурированные данные, что приводит к простым и неполным оценкам. Для заполнения этой разрыва мы предлагаем MDK12-Bench — большой государственный бенчмарк, созданный на основе реальных экзаменов K-12, охватывающий шесть дисциплин, 141 тысячи экземпляров и 6,225 знаний, организованных в шестиуровневую таксономию. Он покрывает пять форматов вопросов с присутствием сложности и временных изменений. Это позволяет проводить сложные оценки, охватывающие 4 аспекта: уровни сложности, временные (кросс-годовые) изменения, контекстные изменения и аспекты, основывающиеся на знаниях. Мы предлагаем динамический фреймворк для оценки, который включает незнакомые визуальные, текстовые и форматы вопросов, чтобы повысить уровень отчуждения и улучшить объективность и долговечность бенчмарка. Также мы рассматриваем знание-указание поддерживаемой генерации (KP-RAG) для изучения роли знаний в решении задач. Основные выводы показывают ограничения текущих МЛМ в нескольких аспектах и дают рекомендации для повышения их устойчивости, толерантности и вклада в область AI-поддерживаемого обучения. ## Метод Мы разработали MDK12-Bench, который включает 141 тысяч задач, распределенных по шести дисциплинам стандарта K-12, и включает 6,225 знаний, организованных в шестиуровневую таксономию. Выборка включает в себя пять форматов вопросов (мультиплейр, мультипозиционный, сравнение, текстовый, графический) с добавлением временных и сложностных характеристик. Мы предлагаем динамический фреймворк для оценки, который включает незнакомые визуальные, текстовые и форматы вопросов, чтобы повысить уровень отчуждения и улучшить объективность и долговечность бенчмарка. Мы также исследуем знание-указание поддерживаемой генерации (KP-RAG) для изучения роли знаний в решении задач, включая различные типы визуальной и текстовой информации. ## Результаты Мы провели эксперименты с 12 МЛМ, включая различные модели с разным количеством параметров и типов входных данных. Мы оценивали их по уровню сложности, временным изменениям, контекстным изменениям и их возможности к знаниям-указаниям. Наши результаты показали, что ни одна модель не показала высокую производите

Abstract

Multimodal large language models (MLLMs), which integrate language and visual cues for problem-solving, are crucial for advancing artificial general intelligence (AGI). However, current benchmarks for measuring the intelligence of MLLMs suffer from limited scale, narrow coverage, and unstructured knowledge, offering only static and undifferentiated evaluations. To bridge this gap, we introduce MDK12-Bench, a large-scale multidisciplinary benchmark built from real-world K-12 exams spanning six disciplines with 141K instances and 6,225 knowledge points organized in a six-layer taxonomy. Covering five question formats with difficulty and year annotations, it enables comprehensive evaluation to capture the extent to which MLLMs perform over four dimensions: 1) difficulty levels, 2) temporal (cross-year) shifts, 3) contextual shifts, and 4) knowledge-driven reasoning. We propose a novel dynamic evaluation framework that introduces unfamiliar visual, textual, and question form shifts to challenge model generalization while improving benchmark objectivity and longevity by mitigating data contamination. We further evaluate knowledge-point reference-augmented generation (KP-RAG) to examine the role of knowledge in problem-solving. Key findings reveal limitations in current MLLMs in multiple aspects and provide guidance for enhancing model robustness, interpretability, and AI-assisted education.

Ссылки и действия