DocIQ: A Benchmark Dataset and Feature Fusion Network for Document Image Quality Assessment
2509.17012v1
cs.CV, cs.LG, eess.IV
2025-09-24
Авторы:
Zhichao Ma, Fan Huang, Lu Zhao, Fengjun Guo, Guangtao Zhai, Xiongkuo Min
Резюме на русском
## Контекст
Исследование документного изображения качества оценки (DIQA) является ключевым аспектом для различных приложений, таких как оптическое распознавание символов (OCR), восстановление документов и оценка систем обработки документов. Однако существуют ограничения в существующих данных и методах, которые могут привести к неточности в оценке качества. Таким образом, требуется новый подход для создания более точных и эффективных моделей оценки качества. Целью данного исследования является разработка нового широкомасштабного субъективного датасета DIQA-5000, а также разработка модели оценки, которая может обеспечить более точную оценку качества в ситуациях, где требуется сократить вычислительные затраты.
## Метод
Для построения датасета DIQA-5000 были использованы 500 реальных документов, которые были изменены с использованием различных техник улучшения изображений. Каждое измененное изображение было оценено 15 субъектов по трем разным аспектам: общему качеству, четкости и фидлити красного цвета. Эти оценки были использованы для построения нового DIQA-двухмерной модели. Модель основывается на проектировании модуля Feature Fusion Network, который использует низкоуровневые и высокоуровневые визуальные признаки для оценки качества документа. Специальная архитектура Feature Fusion Network позволяет модели предсказывать распределения качества по каждому измерению, что позволяет ей более точно учитывать различные аспекты качества документа.
## Результаты
Эксперименты были проведены на двух датасетах: DIQA-5000 и датасете, связанном с оценкой качества для OCR. В результатах показано, что модель Feature Fusion Network превосходит существующие модели оценки качества изображений по точности и эффективности. Особенно заметны улучшения в ситуациях, когда необходимо работать с низкорезольвентными изображениями, так как модель способна эффективно использовать документные шаблоны для сохранения качества оценки при уменьшении разрешения.
## Значимость
Модель Feature Fusion Network может быть применена в различных приложениях, таких как OCR-системы, восстановление документов и оценка качества документов в реальных условиях. Она предлагает более высокую точность и эффективность по сравнению с традиционными моделями, что может существенно улучшить производительность в ситуациях, где требуется оценивать качество документов. Это также открывает новые возможности для будущих исследований в области оценки качества изображений в документах.
## Выводы
В результате данного исследования был создан новый DIQA-датасет DIQA-5000, который предлагает широкую гамму реальных документов с различными искажениями. Также была разработана модель Feature Fusion Network, которая использует Feature Fusion Module
Abstract
Document image quality assessment (DIQA) is an important component for
various applications, including optical character recognition (OCR), document
restoration, and the evaluation of document image processing systems. In this
paper, we introduce a subjective DIQA dataset DIQA-5000. The DIQA-5000 dataset
comprises 5,000 document images, generated by applying multiple document
enhancement techniques to 500 real-world images with diverse distortions. Each
enhanced image was rated by 15 subjects across three rating dimensions: overall
quality, sharpness, and color fidelity. Furthermore, we propose a specialized
no-reference DIQA model that exploits document layout features to maintain
quality perception at reduced resolutions to lower computational cost.
Recognizing that image quality is influenced by both low-level and high-level
visual features, we designed a feature fusion module to extract and integrate
multi-level features from document images. To generate multi-dimensional
scores, our model employs independent quality heads for each dimension to
predict score distributions, allowing it to learn distinct aspects of document
image quality. Experimental results demonstrate that our method outperforms
current state-of-the-art general-purpose IQA models on both DIQA-5000 and an
additional document image dataset focused on OCR accuracy.
Ссылки и действия
Дополнительные ресурсы: