XFinBench: Benchmarking LLMs in Complex Financial Problem Solving and Reasoning

2508.15861v1 cs.CL, cs.LG 2025-08-25
Авторы:

Zhihan Zhang, Yixin Cao, Lizi Liao

Резюме на русском

## Контекст ### Область исследования Финансовые задачи часто требуют глубокого анализа, многомодальной обработки данных и широкого технического понимания. Однако существующие модели текстовых генераторов не всегда справляются с такими задачами, требуя новых подходов к оценке и развитию их возможностей. ### Проблема Существуют недостатки в моделях глубокого обучения при работе с финансовыми проблемами, которые требуют сложного логического рассуждения, взаимодействия с изображениями и работы с текстом. Недостаток в технических решениях в сфере финансов подрывает возможность эффективного использования технологий LLMs. ### Мотивация Необходимо создать бенчмарк, который бы позволил эффективно оценивать LLMs на сложных задачах финансового анализа и решения. Это позволит повысить качество моделей и сделать их более применимыми в реальной финансовой сфере. ## Метод ### Методология Использована многомодальная архитектура, включающая текст, изображения и тематические словари. Бенчмарк XFinBench состоит из 4,235 задач, касающихся различных финансовых тем и требующих разных моделей логического мышления. ### Технические решения Архитектура XFinBench основана на создании контекстно-зависимых задач, использующих мультимодальные данные. Был реализован комплексный подход для оценки таких моделей, включающий в себя визуальные и текстовые контексты. ### Архитектура XFinBench использует мультимодальную архитектуру, включающую в себя классификационную модель для текстового контекста, изображения и специального словарного запаса для финансовых задач. ## Результаты ### Эксперименты Были проведены испытания на 18 лидирующих моделях, включая опенсорсные и коммерческие. Оценка производилась по пяти ключевым качеству: определение терминов, временное рассуждение, прогнозирование будущих событий, сценарий планирования и численный моделирование. ### Использованные данные Для тестирования был использован большой датасет, включая задачи, требующие разных моделей логического мышления. ### Результаты Модель o1 показала лучшую точность среди текстовых моделей (67.3%), но оставалась далеко за работой человеческих экспертов (12.5%). Особые трудности модели представляли временное рассуждение и сценарий планирования. ## Значимость ### Области применения XFinBench может применяться в разработке новых моделей LLMs, а также в обучении моделей для финансового анализа и решения задач. ### Преимущества Предоставляет новые возможности для оценки моделей, позволяя идентифицировать слабые места и сфокусироваться на

Abstract

Solving financial problems demands complex reasoning, multimodal data processing, and a broad technical understanding, presenting unique challenges for current large language models (LLMs). We introduce XFinBench, a novel benchmark with 4,235 examples designed to evaluate LLM's ability in solving complex, knowledge-intensive financial problems across diverse graduate-level finance topics with multi-modal context. We identify five core capabilities of LLMs using XFinBench, i.e, terminology understanding, temporal reasoning, future forecasting, scenario planning, and numerical modelling. Upon XFinBench, we conduct extensive experiments on 18 leading models. The result shows that o1 is the best-performing text-only model with an overall accuracy of 67.3%, but still lags significantly behind human experts with 12.5%, especially in temporal reasoning and scenario planning capabilities. We further construct a knowledge bank with 3,032 finance terms for knowledge augmentation analysis, and find that relevant knowledge to the question only brings consistent accuracy improvements to small open-source model. Additionally, our error analysis reveals that rounding errors during calculation and blindness to position and intersection of curves in the image are two primary issues leading to model's poor performance in calculating and visual-context questions, respectively. Code and dataset are accessible via GitHub: https://github.com/Zhihan72/XFinBench.

Ссылки и действия