Improving OCR using internal document redundancy

2508.14557v1 cs.CV, cs.LG, eess.IV 2025-08-22

Авторы:

Diego Belzarena, Seginus Mowlavi, Aitor Artola, Camilo Mariño, Marina Gardella, Ignacio Ramírez, Antoine Tadros, Roy He, Natalia Bottaioli, Boshra Rajaei, Gregory Randall, Jean-Michel Morel

Резюме на русском

## Контекст Текущие системы OCR (Optical Character Recognition, зрительный распознаватель знаков) основываются на глубоких нейронных сетях, обученных большим количеством данных. Они достаточно эффективны в обнаруживающих задачах, однако при работе с некачественными документами сталкиваются с проблемами. Это особенно важно для документов с низким внутридоменным вариативностью, но высокой междоменной вариативностью, таких как 17-й век до 20-го века европейские газеты или Уругвайские военные архивы. В таком контексте существующие OCR-системы не вполне используют внутридокументную репликацию (redundancy), что может улучшить распознавание низкокачественных императивов. Данная работа предлагает метод улучшения OCR, основанный на группировании и редактировании геометрических характеристик текста. ## Метод Предлагаемый подход основывается на расширенной гауссовой смесевой модели (Extended Gaussian Mixture Model, EGMM). Ключевым отличием является алгоритм, который альтернативно применяет экспектационно-максимизационный (EM) метод и процесс реалингации кластеров (intra-cluster realignment). Это позволяет улучшить точность кластеризации, обнаруживать и корректировать ошибки OCR. Более того, для каждого кластера осуществляется статистическое тестирование нормальности, чтобы гарантировать высокую точность в результатах. Метод используется в неучитываемых режимах и не требует дополнительных данных для обучения. ## Результаты Результаты показали значительные улучшения в распознавании текста для специфичных архивов. Например, для Уругвайских военных документов из 17-го века и европейских газет 17-20 веков, где данные пострадали от старения и деградации, метод показал до 12% улучшений в сравнении с оригинальными OCR-системами. Эти результаты были получены на основе реальных документов в разных уровнях деградации, включая размытые и поврежденные тексты. Обнаружено, что внутридокументная репликация значительно повышает точность, особенно в случаях, когда данные значительно разрушены. ## Значимость Этот подход может применяться в различных областях, таких как хранение исторических документов, цифровая библиотека, архивирование новостной отчетности. Основные преимущества заключаются в улучшении точности распознавания, особенно для низкокачественных документов. Будущие работы будут направлены на решение проблем с многоязычными документами и повышению скорости обработки больших датасетов. ## Выводы Предложенный метод демонстрирует эффективность в улучшении распознавания низкокачественных документов с помощью использования внутридокументной репликации и расширенной гаус

Abstract

Current OCR systems are based on deep learning models trained on large amounts of data. Although they have shown some ability to generalize to unseen data, especially in detection tasks, they can struggle with recognizing low-quality data. This is particularly evident for printed documents, where intra-domain data variability is typically low, but inter-domain data variability is high. In that context, current OCR methods do not fully exploit each document's redundancy. We propose an unsupervised method by leveraging the redundancy of character shapes within a document to correct imperfect outputs of a given OCR system and suggest better clustering. To this aim, we introduce an extended Gaussian Mixture Model (GMM) by alternating an Expectation-Maximization (EM) algorithm with an intra-cluster realignment process and normality statistical testing. We demonstrate improvements in documents with various levels of degradation, including recovered Uruguayan military archives and 17th to mid-20th century European newspapers.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Improving OCR using internal document redundancy

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Blinking Beyond EAR: A Stable Eyelid Angle Metric for Driver Drowsiness Detectio...

Neighbor GRPO: Contrastive ODE Policy Optimization Aligns Flow Models

CYPRESS: Crop Yield Prediction via Regression on Prithvi's Encoder for Satellite...

FlowOpt: Fast Optimization Through Whole Flow Processes for Training-Free Editin...

AngularFuse: A Closer Look at Angle-based Perception for Spatial-Sensitive Multi...

Навигация