FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

2509.17177v1 cs.CL, cs.CV, cs.LG 2025-09-24

Авторы:

Bowen Qin, Chen Yue, Fang Yin, Hui Wang, JG Yao, Jiakang Liu, Jing-Shu Zheng, Miguel Hu Chen, Richeng Xuan, Shibei Meng, Shiqi Zhou, Teng Dai, Tong-Shuai Ren, Wei Cui, Xi Yang, Xialin Du, Xiaojing Xu, Xue Sun, Xuejing Li, Yaming Liu, Yesheng Liu, Ying Liu, Yonghua Lin, Yu Zhao, Yunduo Zhang, Yuwen Luo, Zheqi He, Zhiyuan He, Zhongyuan Wang

Резюме на русском

## Контекст Оценка возможностей текущих бо LARGE REASONING MODELS (LRMs) в области рационального анализа текстовых и визуальных данных приобрела важное значение в связи с развитием ИИ. Несмотря на прогресс в области обработки естественного языка (NLP), существуют проблемы с проверяемостью и точностью результатов, особенно в сценариях, требующих визуального рассуждения. Недостаток структурированных тестовых баз данных и методов экспериментальной оценки не позволяет значительно продвинуться в сфере логического и визуального изучения. Данная работа предлагает контекст для последующей оценки и развития моделей, а также для продвижения инноваций в этой области. ## Метод Работа проводилась в два этапа. Сначала были выбраны популярные модели логического анализа для проведения экспериментов. Затем с помощью ROME (RObust Multimodal Evaluation) был проведен непосредственный тестирований моделей на рассуждение из визуальных и текстовых источников. Метод ROME основывается на систематических сценариях, чтобы избежать дискрипантов в результатах и обеспечить прозрачность в разборе. Таким образом, была создана возможность открытого доступа к данным, которая позволит дальнейшим исследователям продолжать эти работы. ## Результаты Эксперименты показали, что хотя LRMs демонстрируют высокий уровень эффективности в текстовых задачах, их производительность во визуальных задачах остается ограниченной. Например, модели, использующие ROME, показывали проблемы с определением контекста и визуальных сигналов, а также с выводом логических выводов. Несмотря на это, результаты показывают потенциал для улучшения, особенно в сценариях, где визуальное рассуждение является приоритетным. ## Значимость Результаты имеют значимые последствия для областей, в которых необходимы точный логический анализ и визуальное рассуждение, такие как медицина, юриспруденция и технологии. Также, открытый доступ к ROME и данным экспериментов позволяет другим исследователям продолжить эту работу, что может привести к развитию новых моделей и методов. Это выделяет важность данных исследований для улучшения общей функциональности моделей. ## Выводы Работа представляет собой первый шаг к созданию структурированных баз данных и методов экспериментального тестирования в области визуального и логического рассуждения. Она подтверждает необходимость дальнейшего исследования в этой области для достижения более высокой точности и прозрачности в логическом анализе. Будущие исследования будут сконцентрированы на улучшении моделей и развитии новых сценариев для уточнения их производительности.

Abstract

We conduct a moderate-scale contamination-free (to some extent) evaluation of current large reasoning models (LRMs) with some preliminary findings. We also release ROME, our evaluation benchmark for vision language models intended to test reasoning from visual clues. We attach links to the benchmark, evaluation data, and other updates on this website: https://flageval-baai.github.io/LRM-Eval/

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TWEO: Transformers Without Extreme Outliers Enables FP8 Training And Quantizatio...

DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generati...

Words That Make Language Models Perceive

ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Atten...

11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspi...

Навигация