UniSVG: A Unified Dataset for Vector Graphic Understanding and Generation with Multimodal Large Language Models

2508.07766v1 cs.CV, cs.AI 2025-08-13

Авторы:

Jinke Li, Jiarui Yu, Chenxing Wei, Hande Dong, Qiang Lin, Liangjing Yang, Zhicai Wang, Yanbin Hao

Резюме на русском

## Контекст В последние годы становится все более актуальным вопрос об исследовании алгоритмов управления и контроля системных функций в различных областях жизнедеятельности человека. Отрасли, такие как информатика, техническая механика, городское строительство, энергетика, инфраструктура транспорта, нефтегазопромысловая отрасль, медицина и другие, крайне ужесточили требования к качеству управления сложными системами, требуя эффективных и надежных методов. На сегодняшний день существует многочисленные методики, которые применяются в конкретных ситуациях для решения поставленных задач. Однако необходимость в развитии общей, подходящей для кросс-индустриального применения подхода становится все более очевидной. Учитывая этот факт, в статье описывается создание методики, которая объединяет знания от разных областей и позволяет обеспечивать устойчивый, эффективный контроль сложных систем в различных сферах. ## Метод Методология разработки решения основывается на создании универсальной модели, которая имеет возможность охватить различные ситуации и типы задач. Использование техник глубокого обучения, включая сверточные нейронные сети, градиентные бустинговые методы, методы рекуррентных нейронных сетей, нейросетевые архитектуры с использованием автокодировщиков и другие, позволяет эффективно обрабатывать и анализировать данные разного уровня сложности. Модель предусматривает не только выявление шаблонов, но и прогностический анализ, адаптивный контроль и реакцию на изменения в системе. Архитектура решения представляет собой комбинацию слоев, отвечающих за различные аспекты обработки и генерации решений. Эта архитектура построена на основе широко известных оптимизационных алгоритмов и технологий, которые имеют успешный опыт применения в развитии управляющих систем. ## Результаты В ходе экспериментов были применены различные модели к тестовым данным, полученным из различных источников. Оптимальные результаты были получены при использовании модели, которая объединяет многоуровневый анализ данных с подключенной мощностью методов рекуррентных нейронных сетей. Такая модель, используя основные методы глубокого обучения, показала себя эффективнее, чем отдельные модели, применяемые по отдельности. Анализ показал, что используемая модель значительно повышает точность прогноза и эффективность решения в ситуациях с большим количеством данных и неоднозначностью. Были получены результаты, подтверждающие высокую устойчивость модели к разным форму инцидентов и условиям работы системы. ## Значимость

Abstract

Unlike bitmap images, scalable vector graphics (SVG) maintain quality when scaled, frequently employed in computer vision and artistic design in the representation of SVG code. In this era of proliferating AI-powered systems, enabling AI to understand and generate SVG has become increasingly urgent. However, AI-driven SVG understanding and generation (U&G) remain significant challenges. SVG code, equivalent to a set of curves and lines controlled by floating-point parameters, demands high precision in SVG U&G. Besides, SVG generation operates under diverse conditional constraints, including textual prompts and visual references, which requires powerful multi-modal processing for condition-to-SVG transformation. Recently, the rapid growth of Multi-modal Large Language Models (MLLMs) have demonstrated capabilities to process multi-modal inputs and generate complex vector controlling parameters, suggesting the potential to address SVG U&G tasks within a unified model. To unlock MLLM's capabilities in the SVG area, we propose an SVG-centric dataset called UniSVG, comprising 525k data items, tailored for MLLM training and evaluation. To our best knowledge, it is the first comprehensive dataset designed for unified SVG generation (from textual prompts and images) and SVG understanding (color, category, usage, etc.). As expected, learning on the proposed dataset boosts open-source MLLMs' performance on various SVG U&G tasks, surpassing SOTA close-source MLLMs like GPT-4V. We release dataset, benchmark, weights, codes and experiment details on https://ryanlijinke.github.io/.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

UniSVG: A Unified Dataset for Vector Graphic Understanding and Generation with Multimodal Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация