Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models

2509.01959v1 cs.CV, cs.AI, cs.LG 2025-09-05
Авторы:

Hiroshi Sasaki

Резюме на русском

#### Контекст В последние годы multimodal models, такие как Contrastive Language-Image Pre-training (CLIP), показали исключительную эффективность в объединении визуальной и языковой информации. Однако эти модели сталкиваются с ограничениями при работе в специализированных визуальных областях, таких как диаграммы. Диаграммы отличаются своей структурой и символическим характером, отличным от природной имагии. Наша мотивация заключается в развитии методов, которые помогут моделям лучше понимать и работать с такими специализированными визуальными данными. #### Метод Мы предлагаем новую парадигму тренировки, которая направлена на улучшение понимания диаграмм внутри vision-language моделей. Наш подход использует "жесткие" примеры для продвинутого варианта contrastive learning, включающего два специальных целевых функции. Эти функции акцентуются на интересующих структурных свойствах диаграмм. Мы интегрируем эти целевые функции в процесс обучения модели, чтобы она могла более точно и семантически ценно понимать визуальный контент. #### Результаты Мы проверили нашу модель на датасете, содержащем flowcharts, как стандартный класс диаграмм. Наши результаты показали значительные улучшения по сравнению с стандартным CLIP и обычным hard negative learning. Мы измерили эффективность в tasks, таких как image-text matching и visual question answering, и показали, что наш подход значительно повышает точность и семантическое понимание. #### Значимость Наш подход может применяться в различных областях, где используются диаграммы, таких как образование, проектирование и анализ данных. Преимущества включают улучшенное понимание структуры диаграмм, более точную интерпретацию и высокую эффективность в задачах, требующих визуально-языкового понимания. Этот работ позволяет расширить возможности vision-language моделей, сделав их более универсальными и эффективными в специализированных визуальных задачах. #### Выводы Мы доказали, что целевое обучение структурной информации в диаграммах может значительно улучшить понимание vision-language моделей. Наша работа открывает новые возможности для развития моделей, которые будут более эффективно работать с символическими и структурированными визуальными данными. Мы планируем дальнейшее исследование в этой области, включая расширение применения наших методов к другим типам диаграмм и мультимодальным задачам.

Abstract

Multimodal models, such as the Contrastive Language-Image Pre-training (CLIP) model, have demonstrated remarkable success in aligning visual and linguistic representations. However, these models exhibit limitations when applied to specialised visual domains, such as diagrams, which encode structured, symbolic information distinct from that of natural imagery. In this paper, we introduce a novel training paradigm explicitly designed to enhance the comprehension of diagrammatic images within vision-language models. Our approach uses ``hard'' samples for our proposed contrastive learning that incorporates two specialised loss functions that leverage the inherent structural properties of diagrams. By integrating these objectives into model training, our method enables models to develop a more structured and semantically coherent understanding of diagrammatic content. We empirically validate our approach on a benchmark dataset of flowcharts, as a representative class of diagrammatic imagery, demonstrating substantial improvements over standard CLIP and conventional hard negative CLIP learning paradigms for both image-text matching and visual question answering tasks. Our findings underscore the significance of tailored training strategies for specialised tasks and contribute to advancing diagrammatic understanding within the broader landscape of vision-language integration.

Ссылки и действия