Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge

2509.06079v1 cs.CL, cs.CV 2025-09-10

Авторы:

Hao Liang, Ruitao Wu, Bohan Zeng, Junbo Niu, Wentao Zhang, Bin Dong

Резюме на русском

## Контекст Проблемы в multimodal reasoning остаются значимыми в области искусственного интеллекта. Несмотря на успех моделей типа GPT-3 в области text-based reasoning, они сталкиваются с трудностями при обработке multimodalных данных, где необходимо коррелировать информацию из разных модальностей. Это приводит к упущенным возможностям в задачах, требующих визуального и текстового понимания одновременно. Мотивацией для нас стала необходимость создания метода, который может эффективно объединять визуальные и текстовые модальности, обеспечивая высокую точность и гибкость в решении задач. ## Метод Мы предлагаем caption-assisted reasoning framework, который использует синтетические супервайзд данные для обучения. Ключевой идеей является использование сгенерированных визуально-текстовых последовательностей для точной корреляции объектов и их описаний. Метод включает несколько этапов: набор супервайзингов выборок, синтезирование последовательностей, преобразование их в визуально-текстовые контексты и последующий обучающий процесс. Для работы метода мы используем модель Vision-Language Encoder, которая объединяет визуальные и текстовые сигналы, позволяя модели отвечать на задачи, которые необходимо решать. ## Результаты Мы проверили наш метод на двух популярных бенчмарках: SeePhys и MathVerse. В SeePhys, который фокусируется на задачах по физическим описаниям интерактивных сцен, наша модель достигла первого места, показав высокую точность и мощность. На MathVerse, который включает в себя задачи по геометрическому и аналитическому рассуждению, результаты также были высоки, подтверждая гибкость и универсальность нашего подхода. Мы также провели эксперименты с различными вариантами моделей, чтобы продемонстрировать сравнение и показать, что наша архитектура превосходит существующие решения. ## Значимость Модель нашего подхода может быть применена во многих областях, где необходимо обработка multimodalных данных, таких как машинное обучение, обработка естественного языка, разработка автоматизированных систем, которые предсказывают физические свойства объектов или выполняют геометрические рассуждения. Преимущество нашего подхода заключается в том, что он может объединять несколько модальностей, чтобы обеспечивать более точные и надежные результаты. Такой подход может иметь значительное влияние в образовательных, инженерных и индустриальных приложениях. ## Выводы В результате наших исследований, мы доказали, что наш метод эффективен в решении задач multimodal reasoning. Мы установили новый рекорд в SeePhys Challenge и продемонстрировали широкую область применения на MathVerse. Будущие работы будут ориентированы на улучшение моделей, используя более

Abstract

Multimodal reasoning remains a fundamental challenge in artificial intelligence. Despite substantial advances in text-based reasoning, even state-of-the-art models such as GPT-o3 struggle to maintain strong performance in multimodal scenarios. To address this gap, we introduce a caption-assisted reasoning framework that effectively bridges visual and textual modalities. Our approach achieved 1st place in the ICML 2025 AI for Math Workshop \& Challenge 2: SeePhys, highlighting its effectiveness and robustness. Furthermore, we validate its generalization on the MathVerse benchmark for geometric reasoning, demonstrating the versatility of our method. Our code is publicly available at https://github.com/OpenDCAI/SciReasoner.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Visual Puns from Idioms: An Iterative LLM-T2IM-MLLM Framework

Optimizing Multimodal Language Models through Attention-based Interpretability

Bangla Sign Language Translation: Dataset Creation Challenges, Benchmarking and ...

Do Vision-Language Models Understand Visual Persuasiveness?

Arctic-Extract Technical Report

Навигация