FinMMR: Make Financial Numerical Reasoning More Multimodal, Comprehensive, and Challenging
2508.04625v1
cs.CV, cs.CE
2025-08-09
Авторы:
Zichen Tang, Haihong E, Jiacheng Liu, Zhongjun Yang, Rongjin Li, Zihua Rong, Haoyang He, Zhuodi Hao, Xinyang Hu, Kun Ji, Ziyan Ma, Mengyuan Ji, Jun Zhang, Chenghao Ma, Qianhe Zheng, Yang Liu, Yiling Huang, Xinyi Hu, Qing Huang, Zijian Xie, Shiyao Peng
Резюме на русском
**FinMMR: Расширение Модальности, Широти Знаний и Сложности для Многомодальных Моделей в Финансовом Решении Задач**
FinMMR представляет собой новую билингвальную мультимодальную бенчмарк для оценки моделей многомодального машинного обучения в области финансового численного рассуждения. Она расширяет текущие работы в трех ключевых направлениях. Сначала, FinMMR включает 4.3K вопросов и 8.7K изображений, разбитых на 14 категорий — таблицы, графики и другие визуализации, включая сложные диаграммы владения. Второй, она затрагивает 14 финансовых поддисциплин, включая корпоративное финансирование и анализ отраслей, что значительно расширяет объем финансовых знаний в сравнении с предыдущими бенчмарками. Третий, FinMMR представляет высокую сложность, требуя извлечения и интеграцию многородной финансовой информации, включая текст и сложные визуальные данные. Только самые продвинутые модели достигают 53.0% точности на трудных задачах. Этот бенчмарк мотивирует улучшение моделей многомодального машинного обучения для реальных финансовых задач.
Abstract
We present FinMMR, a novel bilingual multimodal benchmark tailored to
evaluate the reasoning capabilities of multimodal large language models (MLLMs)
in financial numerical reasoning tasks. Compared to existing benchmarks, our
work introduces three significant advancements. (1) Multimodality: We
meticulously transform existing financial reasoning benchmarks, and construct
novel questions from the latest Chinese financial research reports. FinMMR
comprises 4.3K questions and 8.7K images spanning 14 categories, including
tables, bar charts, and ownership structure charts. (2) Comprehensiveness:
FinMMR encompasses 14 financial subdomains, including corporate finance,
banking, and industry analysis, significantly exceeding existing benchmarks in
financial domain knowledge breadth. (3) Challenge: Models are required to
perform multi-step precise numerical reasoning by integrating financial
knowledge with the understanding of complex financial images and text. The
best-performing MLLM achieves only 53.0% accuracy on Hard problems. We believe
that FinMMR will drive advancements in enhancing the reasoning capabilities of
MLLMs in real-world scenarios.
Ссылки и действия
Дополнительные ресурсы: