SVGauge: Towards Human-Aligned Evaluation for SVG Generation
2509.07127v1
cs.GR, cs.AI, cs.CV
2025-09-11
Авторы:
Leonardo Zini, Elia Frigieri, Sebastiano Aloscari, Marcello Generali, Lorenzo Dodi, Robert Dosen, Lorenzo Baraldi
Резюме на русском
## Контекст
В последнее время текстово-ориентированные системы генерации изображений (Text-to-Image) получили большое внимание в области искусственного интеллекта. Однако появление новых типов изображений, таких как графика в векторном виде (SVG), предложило новые вызовы для эффективной и точной оценки. Реалистичные SVG-изображения, генерируемые с помощью текстовых запросов, требуют метрик, которые учитывают их символические и векторно-графические особенности. Отсутствие подходящих метрик привело к существующей проблеме: традиционные метрики, такие как FID и CLIPScore, не могут точно оценивать качество SVG-изображений. Это привело к необходимости в разработке специализированных методов, которые могут точно оценивать качество SVG-графики, созданной с помощью текстовых запросов.
## Метод
Система SVGauge предлагает два ключевых компонента для оценки текстово-ориентированных SVG-изображений. В первую очередь, для измерения **визуальной точности** используется SigLIP-метрика, которая извлекает эмбеддинги из изображений и использует PCA и метод whitening для дополнительной нормализации. Во вторую очередь, для измерения **семантической согласованности** используется совместное пространство SBERT и TF-IDF, где сравниваются описания SVG-изображений, сгенерированные с помощью BLIP-2, с исходными запросами текста. Эти два компонента объединены в единую метрику, которая может эффективно оценивать как визуальное качество, так и семантическую согласованность SVG-изображений.
## Результаты
Исследование было проведено на базе подробного SHE-бенчмарка, содержащего 8000 SVG-изображений, созданных 8 различными текстово-ориентированными LLM-генераторами. SVGauge была сравнена с традиционными метриками, такими как FID, LPIPS и CLIPScore. Результаты показывают, что SVGauge достигает наивысшей корреляции с результатами человеческого оценивания и лучше всего воспроизводит системно-уровневые рейтинги по сравнению с другими метриками. Это подтверждает не только эффективность SVGauge в оценке качества SVG-изображений, но также то, что она учитывает уникальные свойства этого типа графики.
## Значимость
SVGauge представляет собой первую метрику, которая адаптирована для векторного изображения, и может быть применена в различных задачах, таких как оценка качества генераторов SVG, анализ систем текстово-ориентированной генерации изображений и развитие новых алгоритмов. SVGauge не только улучшает точность оценки, но и обеспечивает практические возможности для улучшения моделей генерации изображений. В будущем, SVGauge может стать ключевым инструментом для оценки качества генераторов
Abstract
Generated Scalable Vector Graphics (SVG) images demand evaluation criteria
tuned to their symbolic and vectorial nature: criteria that existing metrics
such as FID, LPIPS, or CLIPScore fail to satisfy. In this paper, we introduce
SVGauge, the first human-aligned, reference based metric for text-to-SVG
generation. SVGauge jointly measures (i) visual fidelity, obtained by
extracting SigLIP image embeddings and refining them with PCA and whitening for
domain alignment, and (ii) semantic consistency, captured by comparing
BLIP-2-generated captions of the SVGs against the original prompts in the
combined space of SBERT and TF-IDF. Evaluation on the proposed SHE benchmark
shows that SVGauge attains the highest correlation with human judgments and
reproduces system-level rankings of eight zero-shot LLM-based generators more
faithfully than existing metrics. Our results highlight the necessity of
vector-specific evaluation and provide a practical tool for benchmarking future
text-to-SVG generation models.
Ссылки и действия
Дополнительные ресурсы: