Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge
2509.06079v1
cs.CL, cs.CV
2025-09-10
Авторы:
Hao Liang, Ruitao Wu, Bohan Zeng, Junbo Niu, Wentao Zhang, Bin Dong
Резюме на русском
## Контекст
Проблемы в multimodal reasoning остаются значимыми в области искусственного интеллекта. Несмотря на успех моделей типа GPT-3 в области text-based reasoning, они сталкиваются с трудностями при обработке multimodalных данных, где необходимо коррелировать информацию из разных модальностей. Это приводит к упущенным возможностям в задачах, требующих визуального и текстового понимания одновременно. Мотивацией для нас стала необходимость создания метода, который может эффективно объединять визуальные и текстовые модальности, обеспечивая высокую точность и гибкость в решении задач.
## Метод
Мы предлагаем caption-assisted reasoning framework, который использует синтетические супервайзд данные для обучения. Ключевой идеей является использование сгенерированных визуально-текстовых последовательностей для точной корреляции объектов и их описаний. Метод включает несколько этапов: набор супервайзингов выборок, синтезирование последовательностей, преобразование их в визуально-текстовые контексты и последующий обучающий процесс. Для работы метода мы используем модель Vision-Language Encoder, которая объединяет визуальные и текстовые сигналы, позволяя модели отвечать на задачи, которые необходимо решать.
## Результаты
Мы проверили наш метод на двух популярных бенчмарках: SeePhys и MathVerse. В SeePhys, который фокусируется на задачах по физическим описаниям интерактивных сцен, наша модель достигла первого места, показав высокую точность и мощность. На MathVerse, который включает в себя задачи по геометрическому и аналитическому рассуждению, результаты также были высоки, подтверждая гибкость и универсальность нашего подхода. Мы также провели эксперименты с различными вариантами моделей, чтобы продемонстрировать сравнение и показать, что наша архитектура превосходит существующие решения.
## Значимость
Модель нашего подхода может быть применена во многих областях, где необходимо обработка multimodalных данных, таких как машинное обучение, обработка естественного языка, разработка автоматизированных систем, которые предсказывают физические свойства объектов или выполняют геометрические рассуждения. Преимущество нашего подхода заключается в том, что он может объединять несколько модальностей, чтобы обеспечивать более точные и надежные результаты. Такой подход может иметь значительное влияние в образовательных, инженерных и индустриальных приложениях.
## Выводы
В результате наших исследований, мы доказали, что наш метод эффективен в решении задач multimodal reasoning. Мы установили новый рекорд в SeePhys Challenge и продемонстрировали широкую область применения на MathVerse. Будущие работы будут ориентированы на улучшение моделей, используя более
Abstract
Multimodal reasoning remains a fundamental challenge in artificial
intelligence. Despite substantial advances in text-based reasoning, even
state-of-the-art models such as GPT-o3 struggle to maintain strong performance
in multimodal scenarios. To address this gap, we introduce a caption-assisted
reasoning framework that effectively bridges visual and textual modalities. Our
approach achieved 1st place in the ICML 2025 AI for Math Workshop \& Challenge
2: SeePhys, highlighting its effectiveness and robustness. Furthermore, we
validate its generalization on the MathVerse benchmark for geometric reasoning,
demonstrating the versatility of our method. Our code is publicly available at
https://github.com/OpenDCAI/SciReasoner.
Ссылки и действия
Дополнительные ресурсы: