See it. Say it. Sorted: Agentic System for Compositional Diagram Generation

2508.15222v1 cs.AI, cs.CV, cs.MA 2025-08-23
Авторы:

Hantao Zhang, Jingyang Liu, Ed Li

Резюме на русском

#### ## Контекст Современные технологии стремятся сократить разрыв между рукописными чертежами и высококачественными композиционными диаграммами. Это важно для областей, где точность и структура рисунков ключевые, например, в научной публикации или проектных работах. Однако существующие системы часто страдают от неточностей в структурировании и несовместимости с ручными чертежами. Недостаток в системах, которые могут эффективно работать с пользовательскими чертежами, ограничивает их применение в профессиональных задачах. Это создает мотивацию для разработки агентных систем, которые могут генерировать точные, работоспособные диаграммы на основе неточных рукописных чертежей. #### ## Метод Методология заключается в создании "агентской системы", которая сочетает в себе визуально-языковую модель (Vision-Language Model, VLM) и большую языковую модель (Large Language Model, LLM). Данная система работает по принципу итеративного лучшения. В ходе каждой итерации Critic VLM проводит квалитативные реляционные редактирования рисунка, в то время как несколько моделей LLM предлагают различные стратегии изменения (от консервативных до агрессивных или фокусированных). Затем Judge VLM выбирает наиболее подходящую стратегию, учитывая глобальные ограничения, такие как аллигатор, композиция и подключение. Это позволяет обеспечить гарантированное улучшение качества изображения, не теряя тех свойств, которые характерны для ручных чертежей. Эта система генерирует результат в виде программных SVG, что делает её легко расширяемой и применимой в различных приложениях. #### ## Результаты Разработанная система протестирована на 10 рукописных чертежах, полученных из публикаций, сравниваясь с двумя лидирующими в своем классе генерирующими изображениями моделями (GPT-5 и Gemini-2.5-Pro). Результаты показали, что предлагаемая система превосходит эти модели в точности композиции и структурировании. Она успешно поддерживает глобальные ограничения, такие как точное размещение элементов, и не вводит нежелательных текстовых элементов. Это означает, что система визуально-языковых моделей может генерировать рисунки, которые не только выглядят правильно, но и соответствуют требованиям задач, где точность и структура ключевые. #### ## Значимость Разработанная система может быть применена в различных областях, таких как создание инфографики, проектирование схем и дизайн. Её преимущества заключаются в том, что она обеспечивает высокую точность и сохранение глобальных ограничений в работе с неточными рукописными чертежами. Это может ускорить процессы, повысить качество работ и снизить трудо

Abstract

We study sketch-to-diagram generation: converting rough hand sketches into precise, compositional diagrams. Diffusion models excel at photorealism but struggle with the spatial precision, alignment, and symbolic structure required for flowcharts. We introduce See it. Say it. Sorted., a training-free agentic system that couples a Vision-Language Model (VLM) with Large Language Models (LLMs) to produce editable Scalable Vector Graphics (SVG) programs. The system runs an iterative loop in which a Critic VLM proposes a small set of qualitative, relational edits; multiple candidate LLMs synthesize SVG updates with diverse strategies (conservative->aggressive, alternative, focused); and a Judge VLM selects the best candidate, ensuring stable improvement. This design prioritizes qualitative reasoning over brittle numerical estimates, preserves global constraints (e.g., alignment, connectivity), and naturally supports human-in-the-loop corrections. On 10 sketches derived from flowcharts in published papers, our method more faithfully reconstructs layout and structure than two frontier closed-source image generation LLMs (GPT-5 and Gemini-2.5-Pro), accurately composing primitives (e.g., multi-headed arrows) without inserting unwanted text. Because outputs are programmatic SVGs, the approach is readily extensible to presentation tools (e.g., PowerPoint) via APIs and can be specialized with improved prompts and task-specific tools. The codebase is open-sourced at https://github.com/hantaoZhangrichard/see_it_say_it_sorted.git.

Ссылки и действия