Effective Training Data Synthesis for Improving MLLM Chart Understanding
2508.06492v1
cs.CV, cs.CL
2025-08-12
Авторы:
Yuwei Yang, Zeyu Zhang, Yunzhong Hou, Zhuowan Li, Gaowen Liu, Ali Payani, Yuan-Sen Ting, Liang Zheng
Резюме на русском
## Контекст
Проблема эффективного понимания графических данных, таких как визуализированные научные схемы или диаграммы, является ключевой для создания эффективных систем синтетического зрения и машинного обучения. Однако существующие multimodal large language models (MLLMs), особенно открытого исходного кода, стремятся к высокой точности в тестах на тестирование таких навыков, обычно оставаясь в пределах 30-50% успеха на сложных бенчмарках. Это связано с тем, что традиционные подходы к подготовке данных для обучения часто недостаточно аккуратны и не соответствуют реальности, что мешает моделям развитию навыков в работе с сложными визуализациями. Мотивацией для этого исследования является развитие методных решений, которые позволят улучшить технологии генерации имитационных данных для научных диаграмм, увеличив точность моделей на сложных реальных примерах.
## Метод
Наша методология включает в себя модульный подход к синтезированию данных для обучения. Мы разделяем процесс на 5 этапов: 1) создание отдельных данных и функций для генерации отдельных диаграмм, 2) условная генерация последующих поддиаграмм для многослойных диаграмм, 3) визуальное пополнение генерируемых диаграмм, 4) отбор качественных данных, 5) генерация вопросов и ответов (QA-пар) с помощью GPT-4o. Этот подход позволяет создавать высококачественные данные для обучения моделей, которые лучше соответствуют реальным наборам данных. Мы также развиваем **Effective Chart Dataset (ECD)**, состоящий из более чем 10 000 изображений диаграмм и 300 000 QA-пар, который охватывает 25 тематик и более 250 сочетаний типов диаграмм.
## Результаты
Мы использовали ECD для оценки производительности нескольких MLLMs на разных бенчмарках, включая реальные и синтетические данные. Модели, обученные с помощью ECD, показали более высокий уровень точности и устойчивости в сравнении с моделями, обученными на стандартных данных. Мы также провели эксперименты, проверяющие устойчивость ECD к различным формам модификации данных и подтвердили его высокую производительность в различных сценариях.
## Значимость
ECD может быть применен в различных областях, таких как научное моделирование, интеллектуальные системы и биологические исследования. Он предлагает улучшенную точность и устойчивость в сравнении с предыдущими подходами к подготовке данных для обучения. Кроме того, ECD является открытым и доступным для использования разработчиками, что позволяет повысить производительность существующих моделей и способствовать развитию новых технологий в области визуализации научных данных.
## Выводы
Мы доказа
Abstract
Being able to effectively read scientific plots, or chart understanding, is a
central part toward building effective agents for science. However, existing
multimodal large language models (MLLMs), especially open-source ones, are
still falling behind with a typical success rate of 30%-50% on challenging
benchmarks. Previous studies on fine-tuning MLLMs with synthetic charts are
often restricted by their inadequate similarity to the real charts, which could
compromise model training and performance on complex real-world charts. In this
study, we show that modularizing chart generation and diversifying visual
details improves chart understanding capabilities. In particular, we design a
five-step data synthesis pipeline, where we separate data and function creation
for single plot generation, condition the generation of later subplots on
earlier ones for multi-subplot figures, visually diversify the generated
figures, filter out low quality data, and finally generate the question-answer
(QA) pairs with GPT-4o. This approach allows us to streamline the generation of
fine-tuning datasets and introduce the effective chart dataset (ECD), which
contains 10k+ chart images and 300k+ QA pairs, covering 25 topics and featuring
250+ chart type combinations with high visual complexity. We show that ECD
consistently improves the performance of various MLLMs on a range of real-world
and synthetic test sets. Code, data and models are available at:
https://github.com/yuweiyang-anu/ECD.
Ссылки и действия
Дополнительные ресурсы: