Effective Training Data Synthesis for Improving MLLM Chart Understanding

2508.06492v1 cs.CV, cs.CL 2025-08-12

Авторы:

Yuwei Yang, Zeyu Zhang, Yunzhong Hou, Zhuowan Li, Gaowen Liu, Ali Payani, Yuan-Sen Ting, Liang Zheng

Резюме на русском

## Контекст Проблема эффективного понимания графических данных, таких как визуализированные научные схемы или диаграммы, является ключевой для создания эффективных систем синтетического зрения и машинного обучения. Однако существующие multimodal large language models (MLLMs), особенно открытого исходного кода, стремятся к высокой точности в тестах на тестирование таких навыков, обычно оставаясь в пределах 30-50% успеха на сложных бенчмарках. Это связано с тем, что традиционные подходы к подготовке данных для обучения часто недостаточно аккуратны и не соответствуют реальности, что мешает моделям развитию навыков в работе с сложными визуализациями. Мотивацией для этого исследования является развитие методных решений, которые позволят улучшить технологии генерации имитационных данных для научных диаграмм, увеличив точность моделей на сложных реальных примерах. ## Метод Наша методология включает в себя модульный подход к синтезированию данных для обучения. Мы разделяем процесс на 5 этапов: 1) создание отдельных данных и функций для генерации отдельных диаграмм, 2) условная генерация последующих поддиаграмм для многослойных диаграмм, 3) визуальное пополнение генерируемых диаграмм, 4) отбор качественных данных, 5) генерация вопросов и ответов (QA-пар) с помощью GPT-4o. Этот подход позволяет создавать высококачественные данные для обучения моделей, которые лучше соответствуют реальным наборам данных. Мы также развиваем **Effective Chart Dataset (ECD)**, состоящий из более чем 10 000 изображений диаграмм и 300 000 QA-пар, который охватывает 25 тематик и более 250 сочетаний типов диаграмм. ## Результаты Мы использовали ECD для оценки производительности нескольких MLLMs на разных бенчмарках, включая реальные и синтетические данные. Модели, обученные с помощью ECD, показали более высокий уровень точности и устойчивости в сравнении с моделями, обученными на стандартных данных. Мы также провели эксперименты, проверяющие устойчивость ECD к различным формам модификации данных и подтвердили его высокую производительность в различных сценариях. ## Значимость ECD может быть применен в различных областях, таких как научное моделирование, интеллектуальные системы и биологические исследования. Он предлагает улучшенную точность и устойчивость в сравнении с предыдущими подходами к подготовке данных для обучения. Кроме того, ECD является открытым и доступным для использования разработчиками, что позволяет повысить производительность существующих моделей и способствовать развитию новых технологий в области визуализации научных данных. ## Выводы Мы доказа

Abstract

Being able to effectively read scientific plots, or chart understanding, is a central part toward building effective agents for science. However, existing multimodal large language models (MLLMs), especially open-source ones, are still falling behind with a typical success rate of 30%-50% on challenging benchmarks. Previous studies on fine-tuning MLLMs with synthetic charts are often restricted by their inadequate similarity to the real charts, which could compromise model training and performance on complex real-world charts. In this study, we show that modularizing chart generation and diversifying visual details improves chart understanding capabilities. In particular, we design a five-step data synthesis pipeline, where we separate data and function creation for single plot generation, condition the generation of later subplots on earlier ones for multi-subplot figures, visually diversify the generated figures, filter out low quality data, and finally generate the question-answer (QA) pairs with GPT-4o. This approach allows us to streamline the generation of fine-tuning datasets and introduce the effective chart dataset (ECD), which contains 10k+ chart images and 300k+ QA pairs, covering 25 topics and featuring 250+ chart type combinations with high visual complexity. We show that ECD consistently improves the performance of various MLLMs on a range of real-world and synthetic test sets. Code, data and models are available at: https://github.com/yuweiyang-anu/ECD.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Effective Training Data Synthesis for Improving MLLM Chart Understanding

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация