MME-SCI: A Comprehensive and Challenging Science Benchmark for Multimodal Large Language Models

2508.13938v1 cs.CL, cs.CV 2025-08-21

Авторы:

Jiacheng Ruan, Dan Jiang, Xian Gao, Ting Liu, Yuzhuo Fu, Yangyang Kang

Резюме на русском

## Контекст В последние годы multimodal large language models (MLLMs) показали существенный прогресс в различных областях, в том числе в смежных с машинным обучением. Эти модели обладают возможностью обрабатывать несколько типов данных одновременно, что позволяет использовать их для решения широкого спектра задач. Однако, несмотря на их успех, оценка их разумности и покрытия всех модальностей (включая текст, изображения и звук) в сложных сценариях остается сложной. Это особенно важно в области научных задач, где необходимо, чтобы модели правильно интерпретировали и выводили знания из различных источников. Существующие бенчмарки в этой области, как правило, не полностью охватывают все аспекты, необходимые для глубокого анализа моделей. Таким образом, необходимо разработать бенчмарк, который был бы более всесторонним, вызовом для существующих моделей и, при этом, позволял бы детально проанализировать их преимущества и недостатки. ## Метод MME-SCI представляет собой новый бенчмарк, состоящий из 1,019 высококачественных тестовых наборов, разработанных для оценки возможностей моделей в области научных задач. Данные тестовые наборы поддерживают 3 различных режима оценки: текст только, изображение только и сочетание текста и изображения. Бенчмарк охватывает четыре научных предмета: математика, физика, химия и биология, и работает с пятью языками: китайский, английский, французский, испанский и японский. Методология основывается на том, что каждый тестовый набор включает в себя задачу, которая требует глубокого понимания научных понятий и их взаимосвязей. Для создания бенчмарка были использованы методы сбора данных, включая поиск в открытых источниках и создание новых данных специально для этого целевого назначения. Этапы разработки включали в себя оптимизацию архитектур, проверку качества данных и тщательную проверку многоязычности и многомодальности. ## Результаты Проведены тщательные эксперименты с использованием 16 опен-сорс моделей и 4 закрытых моделей. Результаты показали, что MME-SCI представляет собой сложный бенчмарк, на котором многие модели сталкиваются с трудностями. Например, под режимом Image-only, модель o4-mini показала только 52.11% точности в математике, 24.73% в физике, 36.57% в химии и 29.80% в биологии. Это значительно меньше, чем результаты на других бенчмарках, что свидетельствует о высокой сложности MME-SCI. Более того, мы применяли многоязычность и детальные атрибуты знаний для получения более глубокого анализа производительности моделей в отдельных научных областях. Это позволило выявить сла

Abstract

Recently, multimodal large language models (MLLMs) have achieved significant advancements across various domains, and corresponding evaluation benchmarks have been continuously refined and improved. In this process, benchmarks in the scientific domain have played an important role in assessing the reasoning capabilities of MLLMs. However, existing benchmarks still face three key challenges: 1) Insufficient evaluation of models' reasoning abilities in multilingual scenarios; 2) Inadequate assessment of MLLMs' comprehensive modality coverage; 3) Lack of fine-grained annotation of scientific knowledge points. To address these gaps, we propose MME-SCI, a comprehensive and challenging benchmark. We carefully collected 1,019 high-quality question-answer pairs, which involve 3 distinct evaluation modes. These pairs cover four subjects, namely mathematics, physics, chemistry, and biology, and support five languages: Chinese, English, French, Spanish, and Japanese. We conducted extensive experiments on 16 open-source models and 4 closed-source models, and the results demonstrate that MME-SCI is widely challenging for existing MLLMs. For instance, under the Image-only evaluation mode, o4-mini achieved accuracy of only 52.11%, 24.73%, 36.57%, and 29.80% in mathematics, physics, chemistry, and biology, respectively, indicating a significantly higher difficulty level compared to existing benchmarks. More importantly, using MME-SCI's multilingual and fine-grained knowledge attributes, we analyzed existing models' performance in depth and identified their weaknesses in specific domains. The Data and Evaluation Code are available at https://github.com/JCruan519/MME-SCI.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MME-SCI: A Comprehensive and Challenging Science Benchmark for Multimodal Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Visual Puns from Idioms: An Iterative LLM-T2IM-MLLM Framework

Optimizing Multimodal Language Models through Attention-based Interpretability

Bangla Sign Language Translation: Dataset Creation Challenges, Benchmarking and ...

Do Vision-Language Models Understand Visual Persuasiveness?

Arctic-Extract Technical Report

Навигация