See it. Say it. Sorted: Agentic System for Compositional Diagram Generation
2508.15222v1
cs.AI, cs.CV, cs.MA
2025-08-23
Авторы:
Hantao Zhang, Jingyang Liu, Ed Li
Резюме на русском
#### ## Контекст
Современные технологии стремятся сократить разрыв между рукописными чертежами и высококачественными композиционными диаграммами. Это важно для областей, где точность и структура рисунков ключевые, например, в научной публикации или проектных работах. Однако существующие системы часто страдают от неточностей в структурировании и несовместимости с ручными чертежами. Недостаток в системах, которые могут эффективно работать с пользовательскими чертежами, ограничивает их применение в профессиональных задачах. Это создает мотивацию для разработки агентных систем, которые могут генерировать точные, работоспособные диаграммы на основе неточных рукописных чертежей.
#### ## Метод
Методология заключается в создании "агентской системы", которая сочетает в себе визуально-языковую модель (Vision-Language Model, VLM) и большую языковую модель (Large Language Model, LLM). Данная система работает по принципу итеративного лучшения. В ходе каждой итерации Critic VLM проводит квалитативные реляционные редактирования рисунка, в то время как несколько моделей LLM предлагают различные стратегии изменения (от консервативных до агрессивных или фокусированных). Затем Judge VLM выбирает наиболее подходящую стратегию, учитывая глобальные ограничения, такие как аллигатор, композиция и подключение. Это позволяет обеспечить гарантированное улучшение качества изображения, не теряя тех свойств, которые характерны для ручных чертежей. Эта система генерирует результат в виде программных SVG, что делает её легко расширяемой и применимой в различных приложениях.
#### ## Результаты
Разработанная система протестирована на 10 рукописных чертежах, полученных из публикаций, сравниваясь с двумя лидирующими в своем классе генерирующими изображениями моделями (GPT-5 и Gemini-2.5-Pro). Результаты показали, что предлагаемая система превосходит эти модели в точности композиции и структурировании. Она успешно поддерживает глобальные ограничения, такие как точное размещение элементов, и не вводит нежелательных текстовых элементов. Это означает, что система визуально-языковых моделей может генерировать рисунки, которые не только выглядят правильно, но и соответствуют требованиям задач, где точность и структура ключевые.
#### ## Значимость
Разработанная система может быть применена в различных областях, таких как создание инфографики, проектирование схем и дизайн. Её преимущества заключаются в том, что она обеспечивает высокую точность и сохранение глобальных ограничений в работе с неточными рукописными чертежами. Это может ускорить процессы, повысить качество работ и снизить трудо
Abstract
We study sketch-to-diagram generation: converting rough hand sketches into
precise, compositional diagrams. Diffusion models excel at photorealism but
struggle with the spatial precision, alignment, and symbolic structure required
for flowcharts. We introduce See it. Say it. Sorted., a training-free agentic
system that couples a Vision-Language Model (VLM) with Large Language Models
(LLMs) to produce editable Scalable Vector Graphics (SVG) programs. The system
runs an iterative loop in which a Critic VLM proposes a small set of
qualitative, relational edits; multiple candidate LLMs synthesize SVG updates
with diverse strategies (conservative->aggressive, alternative, focused); and a
Judge VLM selects the best candidate, ensuring stable improvement. This design
prioritizes qualitative reasoning over brittle numerical estimates, preserves
global constraints (e.g., alignment, connectivity), and naturally supports
human-in-the-loop corrections. On 10 sketches derived from flowcharts in
published papers, our method more faithfully reconstructs layout and structure
than two frontier closed-source image generation LLMs (GPT-5 and
Gemini-2.5-Pro), accurately composing primitives (e.g., multi-headed arrows)
without inserting unwanted text. Because outputs are programmatic SVGs, the
approach is readily extensible to presentation tools (e.g., PowerPoint) via
APIs and can be specialized with improved prompts and task-specific tools. The
codebase is open-sourced at
https://github.com/hantaoZhangrichard/see_it_say_it_sorted.git.
Ссылки и действия
Дополнительные ресурсы: