Symbolic Graphics Programming with Large Language Models
2509.05208v1
cs.CV, cs.LG
2025-09-09
Авторы:
Yamei Chen, Haoquan Zhang, Yangyi Huang, Zeju Qiu, Kaipeng Zhang, Yandong Wen, Weiyang Liu
Резюме на русском
## Контекст
Программирование символических графических программ (SGPs) — это область, в которой целью является генерировать программы, которые рендерятся в визуальное содержимое. Это задача значимой технической и научной значимости, так как она позволяет оценить власти моделей языка в понимании и выражении визуального контекста. Ранее, большие языковые модели (LLMs) доказали свою эффективность в задачах программного синтеза, но их потенциал в генерации SGPs, которые требуют точного визуального представления, остается мало исследованным.
Однако именно это возможность генерировать визуально точные и интерпретируемые программы делает SGPs ценным инструментом для изучения кросс-модального понимания LLMs. Этот аспект был исследован в работе "Symbolic Graphics Programming with Large Language Models", где авторы рассматривают возможности LLMs в генерации SGPs и предлагают методы, улучшающие их качество и точность.
## Метод
Методология исследования основывается на создании комплексного бенчмарка, SGP-GenBench, который оценивает три ключевые аспекта: точность в описании объектов, сцен, и связи атрибутов. Были использованы различные модели языка, включая общедоступные и проприетарные, чтобы оценить их эффективность в жизнеобразных условиях.
Для улучшения генерации SGPs был предложен метод, объединяющий развитие графических программ с подкреплением методами обучения. Решения включают в себя:
- **Формат-валидацию SVG**: гарантирует, что генерируемые программы могут быть правильно рендерины.
- **Кросс-модальная оценка**: использование визуальных моделей, таких как SigLIP и DINO, чтобы выравнивать текстовые описания и рендеринг.
## Результаты
В ходе экспериментов было установлено, что модели с открытым исходным кодом проявляют значительные ограничения в сравнении с проприетарными моделями. Решение, основанное на RL, позволило повысить качество генерации SVG до уровня, сопоставимого с лидирующими решениями. Особенно выдающимися результатами оказались улучшения в композиции сцен, точности в управлении объектами и контекстной целостности.
## Значимость
Результаты демонстрируют, что LLMs могут использоваться для точной генерации SGPs, что имеет большое значение в таких областях как визуальное описание, графическое дизайн и визуализация данных. Также, это открывает пути для исследований в кросс-модальном понимании, так как SGPs могут служить интерпретируемым способом изучения визуальных синтеза LLMs.
## Выводы
Выводы авторов гласят, что метод RL с верификацией реверенса значительно повышает качество гене
Abstract
Large language models (LLMs) excel at program synthesis, yet their ability to
produce symbolic graphics programs (SGPs) that render into precise visual
content remains underexplored. We study symbolic graphics programming, where
the goal is to generate an SGP from a natural-language description. This task
also serves as a lens into how LLMs understand the visual world by prompting
them to generate images rendered from SGPs. Among various SGPs, our paper
sticks to scalable vector graphics (SVGs). We begin by examining the extent to
which LLMs can generate SGPs. To this end, we introduce SGP-GenBench, a
comprehensive benchmark covering object fidelity, scene fidelity, and
compositionality (attribute binding, spatial relations, numeracy). On
SGP-GenBench, we discover that frontier proprietary models substantially
outperform open-source models, and performance correlates well with general
coding capabilities. Motivated by this gap, we aim to improve LLMs' ability to
generate SGPs. We propose a reinforcement learning (RL) with verifiable rewards
approach, where a format-validity gate ensures renderable SVG, and a
cross-modal reward aligns text and the rendered image via strong vision
encoders (e.g., SigLIP for text-image and DINO for image-image). Applied to
Qwen-2.5-7B, our method substantially improves SVG generation quality and
semantics, achieving performance on par with frontier systems. We further
analyze training dynamics, showing that RL induces (i) finer decomposition of
objects into controllable primitives and (ii) contextual details that improve
scene coherence. Our results demonstrate that symbolic graphics programming
offers a precise and interpretable lens on cross-modal grounding.
Ссылки и действия
Дополнительные ресурсы: