SVGauge: Towards Human-Aligned Evaluation for SVG Generation

2509.07127v1 cs.GR, cs.AI, cs.CV 2025-09-11

Авторы:

Leonardo Zini, Elia Frigieri, Sebastiano Aloscari, Marcello Generali, Lorenzo Dodi, Robert Dosen, Lorenzo Baraldi

Резюме на русском

## Контекст В последнее время текстово-ориентированные системы генерации изображений (Text-to-Image) получили большое внимание в области искусственного интеллекта. Однако появление новых типов изображений, таких как графика в векторном виде (SVG), предложило новые вызовы для эффективной и точной оценки. Реалистичные SVG-изображения, генерируемые с помощью текстовых запросов, требуют метрик, которые учитывают их символические и векторно-графические особенности. Отсутствие подходящих метрик привело к существующей проблеме: традиционные метрики, такие как FID и CLIPScore, не могут точно оценивать качество SVG-изображений. Это привело к необходимости в разработке специализированных методов, которые могут точно оценивать качество SVG-графики, созданной с помощью текстовых запросов. ## Метод Система SVGauge предлагает два ключевых компонента для оценки текстово-ориентированных SVG-изображений. В первую очередь, для измерения **визуальной точности** используется SigLIP-метрика, которая извлекает эмбеддинги из изображений и использует PCA и метод whitening для дополнительной нормализации. Во вторую очередь, для измерения **семантической согласованности** используется совместное пространство SBERT и TF-IDF, где сравниваются описания SVG-изображений, сгенерированные с помощью BLIP-2, с исходными запросами текста. Эти два компонента объединены в единую метрику, которая может эффективно оценивать как визуальное качество, так и семантическую согласованность SVG-изображений. ## Результаты Исследование было проведено на базе подробного SHE-бенчмарка, содержащего 8000 SVG-изображений, созданных 8 различными текстово-ориентированными LLM-генераторами. SVGauge была сравнена с традиционными метриками, такими как FID, LPIPS и CLIPScore. Результаты показывают, что SVGauge достигает наивысшей корреляции с результатами человеческого оценивания и лучше всего воспроизводит системно-уровневые рейтинги по сравнению с другими метриками. Это подтверждает не только эффективность SVGauge в оценке качества SVG-изображений, но также то, что она учитывает уникальные свойства этого типа графики. ## Значимость SVGauge представляет собой первую метрику, которая адаптирована для векторного изображения, и может быть применена в различных задачах, таких как оценка качества генераторов SVG, анализ систем текстово-ориентированной генерации изображений и развитие новых алгоритмов. SVGauge не только улучшает точность оценки, но и обеспечивает практические возможности для улучшения моделей генерации изображений. В будущем, SVGauge может стать ключевым инструментом для оценки качества генераторов

Abstract

Generated Scalable Vector Graphics (SVG) images demand evaluation criteria tuned to their symbolic and vectorial nature: criteria that existing metrics such as FID, LPIPS, or CLIPScore fail to satisfy. In this paper, we introduce SVGauge, the first human-aligned, reference based metric for text-to-SVG generation. SVGauge jointly measures (i) visual fidelity, obtained by extracting SigLIP image embeddings and refining them with PCA and whitening for domain alignment, and (ii) semantic consistency, captured by comparing BLIP-2-generated captions of the SVGs against the original prompts in the combined space of SBERT and TF-IDF. Evaluation on the proposed SHE benchmark shows that SVGauge attains the highest correlation with human judgments and reproduces system-level rankings of eight zero-shot LLM-based generators more faithfully than existing metrics. Our results highlight the necessity of vector-specific evaluation and provide a practical tool for benchmarking future text-to-SVG generation models.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SVGauge: Towards Human-Aligned Evaluation for SVG Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A 3D Generation Framework from Cross Modality to Parameterized Primitive

3Dify: a Framework for Procedural 3D-CG Generation Assisted by LLMs Using MCP an...

Bridging Text and Video Generation: A Survey

SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder

ReLumix: Extending Image Relighting to Video via Video Diffusion Models

Навигация