Uni-DocDiff: A Unified Document Restoration Model Based on Diffusion

2508.04055v1 cs.CV 2025-08-09
Авторы:

Fangmin Zhao, Weichao Zeng, Zhenhang Li, Dongbao Yang, Binbin Li, Xiaojun Bi, Yu Zhou

Резюме на русском

Документ деградации является важной проблемой в области цифрового распознавания и обработки документов, поскольку нарушает их читаемость и способность к анализу. Ранее, для решения этой проблемы, разрабатывались отдельные модели для каждой категории деградаций, что приводило к сложности и неэффективности систем. В статье предлагается Uni-DocDiff — модель, основанная на методе диффузии, которая удачно объединяет несколько задач восстановления документов в единую архитектуру. Для улучшения многозадачности и уменьшения возможных затруднений с интерференцией задач предложена механика Prior Pool и Prior Fusion Module. Эти решения позволяют Uni-DocDiff адаптироваться к различным задачам, включая неизвестные, а также показывают высокую эффективность, которая сопоставима или даже превосходит задаче-специалисты. Таким образом, Uni-DocDiff предлагает эффективное, гибкое и синергетичное решение для сложных задач восстановления документов.

Abstract

Removing various degradations from damaged documents greatly benefits digitization, downstream document analysis, and readability. Previous methods often treat each restoration task independently with dedicated models, leading to a cumbersome and highly complex document processing system. Although recent studies attempt to unify multiple tasks, they often suffer from limited scalability due to handcrafted prompts and heavy preprocessing, and fail to fully exploit inter-task synergy within a shared architecture. To address the aforementioned challenges, we propose Uni-DocDiff, a Unified and highly scalable Document restoration model based on Diffusion. Uni-DocDiff develops a learnable task prompt design, ensuring exceptional scalability across diverse tasks. To further enhance its multi-task capabilities and address potential task interference, we devise a novel \textbf{Prior \textbf{P}ool}, a simple yet comprehensive mechanism that combines both local high-frequency features and global low-frequency features. Additionally, we design the \textbf{Prior \textbf{F}usion \textbf{M}odule (PFM)}, which enables the model to adaptively select the most relevant prior information for each specific task. Extensive experiments show that the versatile Uni-DocDiff achieves performance comparable or even superior performance compared with task-specific expert models, and simultaneously holds the task scalability for seamless adaptation to new tasks.

Ссылки и действия