Measuring Visual Understanding in Telecom domain: Performance Metrics for Image-to-UML conversion using VLMs

2509.11667v1 cs.LG, cs.CL 2025-09-17
Авторы:

HG Ranjani, Rutuja Prabhudesai

Резюме на русском

#### Контекст Телекоммуникационный домен 3GPP охватывает огромный объем документации, включающую сложные схемы системных потоков, такие как последовательностные диаграммы. Эти схемы играют ключевую роль в анализе и моделировании системных процессов. С появлением Vision-Language Large Models (VLMs), таких как Claude Sonnet и GPT-4V, стало возможным автоматизировать преобразование таких изображений в машинно-читаемый формат PlantUML (puml). Однако существуют значительные проблемы в оценке качества таких преобразований. Настоящая работа адресует этот вопрос, предлагая метрики для измерения точности и качества преобразования puml-скриптов, а также используя 3GPP-документы в качестве представительного набора данных. #### Метод Для проведения экспериментов был создан набор данных, включающий последовательностные диаграммы из реальных документов 3GPP. Эти диаграммы были преобразованы в puml-формат с использованием двух VLMs: Claude Sonnet и GPT-4V. Для оценки качества преобразований были предложены стандартные метрики, охватывающие следующие аспекты: точность идентификации узлов (participant identification), точность описания сообщений (message flow accuracy), сохранение порядка потока (sequence ordering) и сохранение группирования конструкций (grouping construct preservation). Для сравнения результатов использовались системы контроля версий, чтобы выявить различия между значениями, полученными с помощью VLMs, и ручными представлениями (ground truth). #### Результаты Эксперименты показали высокую точность преобразования в целом, особенно в случае узлов, сообщений и потоков. Однако для более сложных конструкций, таких как группы, заметки и контейнеры, VLMs демонстрировали меньшую точность. Это относится к тем областям, где представление входных данных для VLMs требует дополнительного оптимизации. Результаты показывают, что активное улучшение тренировочных данных для VLMs может существенно повысить эффективность преобразований. #### Значимость Результаты этого исследования имеют большое значение для автоматизации процессов в телекоммуникационной отрасли. Метрики, предложенные в работе, позволяют измерить качество преобразования puml-скриптов, что может привести к более точному анализу и моделированию системных процессов в телекоммуникационных системах. Эти метрики могут быть применены в других областях, где используются последовательностные диаграммы. Будущие исследования могут сосредоточиться на улучшении тренировочных данных для VLMs, чтобы улучшить их точность в преобразовании более сложных конструкций. #### Выводы Исследование установило, что VLMs Claude Sonnet и GPT-4V эффективно работают на многих уровнях, но существуют про

Abstract

Telecom domain 3GPP documents are replete with images containing sequence diagrams. Advances in Vision-Language Large Models (VLMs) have eased conversion of such images to machine-readable PlantUML (puml) formats. However, there is a gap in evaluation of such conversions - existing works do not compare puml scripts for various components. In this work, we propose performance metrics to measure the effectiveness of such conversions. A dataset of sequence diagrams from 3GPP documents is chosen to be representative of domain-specific actual scenarios. We compare puml outputs from two VLMs - Claude Sonnet and GPT-4V - against manually created ground truth representations. We use version control tools to capture differences and introduce standard performance metrics to measure accuracies along various components: participant identification, message flow accuracy, sequence ordering, and grouping construct preservation. We demonstrate effectiveness of proposed metrics in quantifying conversion errors across various components of puml scripts. The results show that nodes, edges and messages are accurately captured. However, we observe that VLMs do not necessarily perform well on complex structures such as notes, box, groups. Our experiments and performance metrics indicates a need for better representation of these components in training data for fine-tuned VLMs.

Ссылки и действия