Uni-DocDiff: A Unified Document Restoration Model Based on Diffusion
2508.04055v1
cs.CV
2025-08-09
Авторы:
Fangmin Zhao, Weichao Zeng, Zhenhang Li, Dongbao Yang, Binbin Li, Xiaojun Bi, Yu Zhou
Резюме на русском
Документ деградации является важной проблемой в области цифрового распознавания и обработки документов, поскольку нарушает их читаемость и способность к анализу. Ранее, для решения этой проблемы, разрабатывались отдельные модели для каждой категории деградаций, что приводило к сложности и неэффективности систем. В статье предлагается Uni-DocDiff — модель, основанная на методе диффузии, которая удачно объединяет несколько задач восстановления документов в единую архитектуру. Для улучшения многозадачности и уменьшения возможных затруднений с интерференцией задач предложена механика Prior Pool и Prior Fusion Module. Эти решения позволяют Uni-DocDiff адаптироваться к различным задачам, включая неизвестные, а также показывают высокую эффективность, которая сопоставима или даже превосходит задаче-специалисты. Таким образом, Uni-DocDiff предлагает эффективное, гибкое и синергетичное решение для сложных задач восстановления документов.
Abstract
Removing various degradations from damaged documents greatly benefits
digitization, downstream document analysis, and readability. Previous methods
often treat each restoration task independently with dedicated models, leading
to a cumbersome and highly complex document processing system. Although recent
studies attempt to unify multiple tasks, they often suffer from limited
scalability due to handcrafted prompts and heavy preprocessing, and fail to
fully exploit inter-task synergy within a shared architecture. To address the
aforementioned challenges, we propose Uni-DocDiff, a Unified and highly
scalable Document restoration model based on Diffusion. Uni-DocDiff develops a
learnable task prompt design, ensuring exceptional scalability across diverse
tasks. To further enhance its multi-task capabilities and address potential
task interference, we devise a novel \textbf{Prior \textbf{P}ool}, a simple yet
comprehensive mechanism that combines both local high-frequency features and
global low-frequency features. Additionally, we design the \textbf{Prior
\textbf{F}usion \textbf{M}odule (PFM)}, which enables the model to adaptively
select the most relevant prior information for each specific task. Extensive
experiments show that the versatile Uni-DocDiff achieves performance comparable
or even superior performance compared with task-specific expert models, and
simultaneously holds the task scalability for seamless adaptation to new tasks.
Ссылки и действия
Дополнительные ресурсы: