MME-SCI: A Comprehensive and Challenging Science Benchmark for Multimodal Large Language Models
2508.13938v1
cs.CL, cs.CV
2025-08-21
Авторы:
Jiacheng Ruan, Dan Jiang, Xian Gao, Ting Liu, Yuzhuo Fu, Yangyang Kang
Резюме на русском
## Контекст
В последние годы multimodal large language models (MLLMs) показали существенный прогресс в различных областях, в том числе в смежных с машинным обучением. Эти модели обладают возможностью обрабатывать несколько типов данных одновременно, что позволяет использовать их для решения широкого спектра задач. Однако, несмотря на их успех, оценка их разумности и покрытия всех модальностей (включая текст, изображения и звук) в сложных сценариях остается сложной. Это особенно важно в области научных задач, где необходимо, чтобы модели правильно интерпретировали и выводили знания из различных источников. Существующие бенчмарки в этой области, как правило, не полностью охватывают все аспекты, необходимые для глубокого анализа моделей. Таким образом, необходимо разработать бенчмарк, который был бы более всесторонним, вызовом для существующих моделей и, при этом, позволял бы детально проанализировать их преимущества и недостатки.
## Метод
MME-SCI представляет собой новый бенчмарк, состоящий из 1,019 высококачественных тестовых наборов, разработанных для оценки возможностей моделей в области научных задач. Данные тестовые наборы поддерживают 3 различных режима оценки: текст только, изображение только и сочетание текста и изображения. Бенчмарк охватывает четыре научных предмета: математика, физика, химия и биология, и работает с пятью языками: китайский, английский, французский, испанский и японский. Методология основывается на том, что каждый тестовый набор включает в себя задачу, которая требует глубокого понимания научных понятий и их взаимосвязей. Для создания бенчмарка были использованы методы сбора данных, включая поиск в открытых источниках и создание новых данных специально для этого целевого назначения. Этапы разработки включали в себя оптимизацию архитектур, проверку качества данных и тщательную проверку многоязычности и многомодальности.
## Результаты
Проведены тщательные эксперименты с использованием 16 опен-сорс моделей и 4 закрытых моделей. Результаты показали, что MME-SCI представляет собой сложный бенчмарк, на котором многие модели сталкиваются с трудностями. Например, под режимом Image-only, модель o4-mini показала только 52.11% точности в математике, 24.73% в физике, 36.57% в химии и 29.80% в биологии. Это значительно меньше, чем результаты на других бенчмарках, что свидетельствует о высокой сложности MME-SCI. Более того, мы применяли многоязычность и детальные атрибуты знаний для получения более глубокого анализа производительности моделей в отдельных научных областях. Это позволило выявить сла
Abstract
Recently, multimodal large language models (MLLMs) have achieved significant
advancements across various domains, and corresponding evaluation benchmarks
have been continuously refined and improved. In this process, benchmarks in the
scientific domain have played an important role in assessing the reasoning
capabilities of MLLMs. However, existing benchmarks still face three key
challenges: 1) Insufficient evaluation of models' reasoning abilities in
multilingual scenarios; 2) Inadequate assessment of MLLMs' comprehensive
modality coverage; 3) Lack of fine-grained annotation of scientific knowledge
points. To address these gaps, we propose MME-SCI, a comprehensive and
challenging benchmark. We carefully collected 1,019 high-quality
question-answer pairs, which involve 3 distinct evaluation modes. These pairs
cover four subjects, namely mathematics, physics, chemistry, and biology, and
support five languages: Chinese, English, French, Spanish, and Japanese. We
conducted extensive experiments on 16 open-source models and 4 closed-source
models, and the results demonstrate that MME-SCI is widely challenging for
existing MLLMs. For instance, under the Image-only evaluation mode, o4-mini
achieved accuracy of only 52.11%, 24.73%, 36.57%, and 29.80% in mathematics,
physics, chemistry, and biology, respectively, indicating a significantly
higher difficulty level compared to existing benchmarks. More importantly,
using MME-SCI's multilingual and fine-grained knowledge attributes, we analyzed
existing models' performance in depth and identified their weaknesses in
specific domains. The Data and Evaluation Code are available at
https://github.com/JCruan519/MME-SCI.
Ссылки и действия
Дополнительные ресурсы: