Improving OCR using internal document redundancy
2508.14557v1
cs.CV, cs.LG, eess.IV
2025-08-22
Авторы:
Diego Belzarena, Seginus Mowlavi, Aitor Artola, Camilo Mariño, Marina Gardella, Ignacio Ramírez, Antoine Tadros, Roy He, Natalia Bottaioli, Boshra Rajaei, Gregory Randall, Jean-Michel Morel
Резюме на русском
## Контекст
Текущие системы OCR (Optical Character Recognition, зрительный распознаватель знаков) основываются на глубоких нейронных сетях, обученных большим количеством данных. Они достаточно эффективны в обнаруживающих задачах, однако при работе с некачественными документами сталкиваются с проблемами. Это особенно важно для документов с низким внутридоменным вариативностью, но высокой междоменной вариативностью, таких как 17-й век до 20-го века европейские газеты или Уругвайские военные архивы. В таком контексте существующие OCR-системы не вполне используют внутридокументную репликацию (redundancy), что может улучшить распознавание низкокачественных императивов. Данная работа предлагает метод улучшения OCR, основанный на группировании и редактировании геометрических характеристик текста.
## Метод
Предлагаемый подход основывается на расширенной гауссовой смесевой модели (Extended Gaussian Mixture Model, EGMM). Ключевым отличием является алгоритм, который альтернативно применяет экспектационно-максимизационный (EM) метод и процесс реалингации кластеров (intra-cluster realignment). Это позволяет улучшить точность кластеризации, обнаруживать и корректировать ошибки OCR. Более того, для каждого кластера осуществляется статистическое тестирование нормальности, чтобы гарантировать высокую точность в результатах. Метод используется в неучитываемых режимах и не требует дополнительных данных для обучения.
## Результаты
Результаты показали значительные улучшения в распознавании текста для специфичных архивов. Например, для Уругвайских военных документов из 17-го века и европейских газет 17-20 веков, где данные пострадали от старения и деградации, метод показал до 12% улучшений в сравнении с оригинальными OCR-системами. Эти результаты были получены на основе реальных документов в разных уровнях деградации, включая размытые и поврежденные тексты. Обнаружено, что внутридокументная репликация значительно повышает точность, особенно в случаях, когда данные значительно разрушены.
## Значимость
Этот подход может применяться в различных областях, таких как хранение исторических документов, цифровая библиотека, архивирование новостной отчетности. Основные преимущества заключаются в улучшении точности распознавания, особенно для низкокачественных документов. Будущие работы будут направлены на решение проблем с многоязычными документами и повышению скорости обработки больших датасетов.
## Выводы
Предложенный метод демонстрирует эффективность в улучшении распознавания низкокачественных документов с помощью использования внутридокументной репликации и расширенной гаус
Abstract
Current OCR systems are based on deep learning models trained on large
amounts of data. Although they have shown some ability to generalize to unseen
data, especially in detection tasks, they can struggle with recognizing
low-quality data. This is particularly evident for printed documents, where
intra-domain data variability is typically low, but inter-domain data
variability is high. In that context, current OCR methods do not fully exploit
each document's redundancy. We propose an unsupervised method by leveraging the
redundancy of character shapes within a document to correct imperfect outputs
of a given OCR system and suggest better clustering. To this aim, we introduce
an extended Gaussian Mixture Model (GMM) by alternating an
Expectation-Maximization (EM) algorithm with an intra-cluster realignment
process and normality statistical testing. We demonstrate improvements in
documents with various levels of degradation, including recovered Uruguayan
military archives and 17th to mid-20th century European newspapers.
Ссылки и действия
Дополнительные ресурсы: