Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation

2508.02374v1 cs.CV, cs.IR, cs.LG 2025-08-09
Авторы:

Shuo Lu, Yanyin Chen, Wei Feng, Jiahao Fan, Fengheng Li, Zheng Zhang, Jingjing Lv, Junjie Shen, Ching Law, Jian Liang

Резюме на русском

Локальная оптимизация и несовпадение метрик оценки с предпочтениями пользователей стали серьезными проблемами в генерации и оценке макетов. Работа предлагает Uni-Layout — расширенный подход, который объединяет генерацию различных типов макетов в единую модель, основанную на естественном языке, и вводит инновационную методику оценки, адаптированную под человеческие предпочтения. Для этого был создан Layout-HF100k, первый большой датасет с экспертной оценкой макетов, позволяющий учитывать визуальные и геометрические свойства. Механизм Chain-of-Thought и модуль оценки достоверности позволяют осуществлять квалитативные и квантитативные оценки. Для уточнения соответствия модели пользовательским предпочтениям, разработана Dynamic-Margin Preference Optimization. Исследования показали, что Uni-Layout превосходит существующие методы как в генерировании, так и в оценке макетов, обеспечивая более человеческий и точный подход.

Abstract

Layout generation plays a crucial role in enhancing both user experience and design efficiency. However, current approaches suffer from task-specific generation capabilities and perceptually misaligned evaluation metrics, leading to limited applicability and ineffective measurement. In this paper, we propose \textit{Uni-Layout}, a novel framework that achieves unified generation, human-mimicking evaluation and alignment between the two. For universal generation, we incorporate various layout tasks into a single taxonomy and develop a unified generator that handles background or element contents constrained tasks via natural language prompts. To introduce human feedback for the effective evaluation of layouts, we build \textit{Layout-HF100k}, the first large-scale human feedback dataset with 100,000 expertly annotated layouts. Based on \textit{Layout-HF100k}, we introduce a human-mimicking evaluator that integrates visual and geometric information, employing a Chain-of-Thought mechanism to conduct qualitative assessments alongside a confidence estimation module to yield quantitative measurements. For better alignment between the generator and the evaluator, we integrate them into a cohesive system by adopting Dynamic-Margin Preference Optimization (DMPO), which dynamically adjusts margins based on preference strength to better align with human judgments. Extensive experiments show that \textit{Uni-Layout} significantly outperforms both task-specific and general-purpose methods. Our code is publicly available at https://github.com/JD-GenX/Uni-Layout.

Ссылки и действия

Связанные статьи

Multi-Label Plant Species Prediction with Metadata-Enhanced Multi-Head Vision Tr...

## Контекст Формирования и присвоения номенклатурных признаков растений — важной задачей в экологии, биологии и агрономи...

2025-08-16