DocIQ: A Benchmark Dataset and Feature Fusion Network for Document Image Quality Assessment

2509.17012v1 cs.CV, cs.LG, eess.IV 2025-09-24
Авторы:

Zhichao Ma, Fan Huang, Lu Zhao, Fengjun Guo, Guangtao Zhai, Xiongkuo Min

Резюме на русском

## Контекст Исследование документного изображения качества оценки (DIQA) является ключевым аспектом для различных приложений, таких как оптическое распознавание символов (OCR), восстановление документов и оценка систем обработки документов. Однако существуют ограничения в существующих данных и методах, которые могут привести к неточности в оценке качества. Таким образом, требуется новый подход для создания более точных и эффективных моделей оценки качества. Целью данного исследования является разработка нового широкомасштабного субъективного датасета DIQA-5000, а также разработка модели оценки, которая может обеспечить более точную оценку качества в ситуациях, где требуется сократить вычислительные затраты. ## Метод Для построения датасета DIQA-5000 были использованы 500 реальных документов, которые были изменены с использованием различных техник улучшения изображений. Каждое измененное изображение было оценено 15 субъектов по трем разным аспектам: общему качеству, четкости и фидлити красного цвета. Эти оценки были использованы для построения нового DIQA-двухмерной модели. Модель основывается на проектировании модуля Feature Fusion Network, который использует низкоуровневые и высокоуровневые визуальные признаки для оценки качества документа. Специальная архитектура Feature Fusion Network позволяет модели предсказывать распределения качества по каждому измерению, что позволяет ей более точно учитывать различные аспекты качества документа. ## Результаты Эксперименты были проведены на двух датасетах: DIQA-5000 и датасете, связанном с оценкой качества для OCR. В результатах показано, что модель Feature Fusion Network превосходит существующие модели оценки качества изображений по точности и эффективности. Особенно заметны улучшения в ситуациях, когда необходимо работать с низкорезольвентными изображениями, так как модель способна эффективно использовать документные шаблоны для сохранения качества оценки при уменьшении разрешения. ## Значимость Модель Feature Fusion Network может быть применена в различных приложениях, таких как OCR-системы, восстановление документов и оценка качества документов в реальных условиях. Она предлагает более высокую точность и эффективность по сравнению с традиционными моделями, что может существенно улучшить производительность в ситуациях, где требуется оценивать качество документов. Это также открывает новые возможности для будущих исследований в области оценки качества изображений в документах. ## Выводы В результате данного исследования был создан новый DIQA-датасет DIQA-5000, который предлагает широкую гамму реальных документов с различными искажениями. Также была разработана модель Feature Fusion Network, которая использует Feature Fusion Module

Abstract

Document image quality assessment (DIQA) is an important component for various applications, including optical character recognition (OCR), document restoration, and the evaluation of document image processing systems. In this paper, we introduce a subjective DIQA dataset DIQA-5000. The DIQA-5000 dataset comprises 5,000 document images, generated by applying multiple document enhancement techniques to 500 real-world images with diverse distortions. Each enhanced image was rated by 15 subjects across three rating dimensions: overall quality, sharpness, and color fidelity. Furthermore, we propose a specialized no-reference DIQA model that exploits document layout features to maintain quality perception at reduced resolutions to lower computational cost. Recognizing that image quality is influenced by both low-level and high-level visual features, we designed a feature fusion module to extract and integrate multi-level features from document images. To generate multi-dimensional scores, our model employs independent quality heads for each dimension to predict score distributions, allowing it to learn distinct aspects of document image quality. Experimental results demonstrate that our method outperforms current state-of-the-art general-purpose IQA models on both DIQA-5000 and an additional document image dataset focused on OCR accuracy.

Ссылки и действия