Uni-Layout: Integrating Human Feedback in Unified Layout Generation and Evaluation
2508.02374v1
cs.CV, cs.IR, cs.LG
2025-08-09
Авторы:
Shuo Lu, Yanyin Chen, Wei Feng, Jiahao Fan, Fengheng Li, Zheng Zhang, Jingjing Lv, Junjie Shen, Ching Law, Jian Liang
Резюме на русском
Локальная оптимизация и несовпадение метрик оценки с предпочтениями пользователей стали серьезными проблемами в генерации и оценке макетов. Работа предлагает Uni-Layout — расширенный подход, который объединяет генерацию различных типов макетов в единую модель, основанную на естественном языке, и вводит инновационную методику оценки, адаптированную под человеческие предпочтения. Для этого был создан Layout-HF100k, первый большой датасет с экспертной оценкой макетов, позволяющий учитывать визуальные и геометрические свойства. Механизм Chain-of-Thought и модуль оценки достоверности позволяют осуществлять квалитативные и квантитативные оценки. Для уточнения соответствия модели пользовательским предпочтениям, разработана Dynamic-Margin Preference Optimization. Исследования показали, что Uni-Layout превосходит существующие методы как в генерировании, так и в оценке макетов, обеспечивая более человеческий и точный подход.
Abstract
Layout generation plays a crucial role in enhancing both user experience and
design efficiency. However, current approaches suffer from task-specific
generation capabilities and perceptually misaligned evaluation metrics, leading
to limited applicability and ineffective measurement. In this paper, we propose
\textit{Uni-Layout}, a novel framework that achieves unified generation,
human-mimicking evaluation and alignment between the two. For universal
generation, we incorporate various layout tasks into a single taxonomy and
develop a unified generator that handles background or element contents
constrained tasks via natural language prompts. To introduce human feedback for
the effective evaluation of layouts, we build \textit{Layout-HF100k}, the first
large-scale human feedback dataset with 100,000 expertly annotated layouts.
Based on \textit{Layout-HF100k}, we introduce a human-mimicking evaluator that
integrates visual and geometric information, employing a Chain-of-Thought
mechanism to conduct qualitative assessments alongside a confidence estimation
module to yield quantitative measurements. For better alignment between the
generator and the evaluator, we integrate them into a cohesive system by
adopting Dynamic-Margin Preference Optimization (DMPO), which dynamically
adjusts margins based on preference strength to better align with human
judgments. Extensive experiments show that \textit{Uni-Layout} significantly
outperforms both task-specific and general-purpose methods. Our code is
publicly available at https://github.com/JD-GenX/Uni-Layout.
Ссылки и действия
Дополнительные ресурсы: