Improving OCR for Historical Texts of Multiple Languages

2508.10356v1 cs.CV, cs.CL 2025-08-16

Авторы:

Hylke Westerdijk, Ben Blankenborg, Khondoker Ittehadul Islam

Резюме на русском

## Контекст Область исследования, связанная с Оптическим Знаково-Чтением (OCR) и Анализом Документов, играет ключевую роль в сохранении и изучении исторических текстов. Одним из основных задач моделирования является улучшение точности распознавания старостой рукописных текстов, в том числе текстов исторических языков. Это связано с тем, что рукописные тексты имеют уникальные особенности, такие как искажения, загрязнения и нерегулярность шрифтов. Эти особенности часто вызывают проблемы для существующих моделей OCR, которые могут не успешно распознавать такие тексты. Дальнейший мотивация построения моделей является возможность применения в различных областях, включая семантическое разбиение текстов, анализ документов и извлечение информации. ## Метод Методология разработки моделей OCR включает в себя использование различных глубоких нейронных сетей и алгоритмов для повышения точности распознавания. Для улучшения данных в задаче распознавания рукописных текстов средствами искусственного интеллекта, включая аугментацию данных и методы распознавания цепочек символов, такие как Bidirectional LSTM и Connectionist Temporal Classification (CTC). В разработке моделей для работы с рукописными текстами использовался CRNN (Convolutional Recurrent Neural Network), который интегрирует DeepLabV3+ для семантической сегментации. Для работы с еврейскими рукописными текстами Dead Sea Scrolls использовались модели Kraken и TrOCR. Для задачи распознавания рукописных текстов 16-18 веков включены методы DeepLabV3+ для сегментации и LSTM для последовательного анализа. Для работы с рукописными текстами в английском языке, использовались CRNN и ResNet34, включая CTC задачу для последовательности. ## Результаты Применение вышеуказанных методов привело к улучшению точности распознавания рукописных текстов различных языков. Для рукописных текстов Dead Sea Scrolls, использование Kraken и TrOCR привело к улучшению распознавания символов. Для задачи распознавания рукописных текстов 16-18 веков, CRNN с DeepLabV3+ и Bidirectional LSTM показало значительное повышение точности. Для английского рукописного текста, CRNN с ResNet34 и CTC позволило существенно улучшить последовательность распознавания. Эти результаты демонстрируют то, что улучшение моделей OCR для разных текстов и языков может быть достигнуто с помощью различных глубоких нейронных сетей и методов аугментации данных. ## Значимость Улучшение OCR для исторических текстов имеет широкие области применения. Первым делом, это может быть применено для поддержки исследований в области истории, археологии и филологии, позволяя извлекать и анализировать исторические тексты. Во-вторых, это может быть применено для повышения эффективности

Abstract

This paper presents our methodology and findings from three tasks across Optical Character Recognition (OCR) and Document Layout Analysis using advanced deep learning techniques. First, for the historical Hebrew fragments of the Dead Sea Scrolls, we enhanced our dataset through extensive data augmentation and employed the Kraken and TrOCR models to improve character recognition. In our analysis of 16th to 18th-century meeting resolutions task, we utilized a Convolutional Recurrent Neural Network (CRNN) that integrated DeepLabV3+ for semantic segmentation with a Bidirectional LSTM, incorporating confidence-based pseudolabeling to refine our model. Finally, for modern English handwriting recognition task, we applied a CRNN with a ResNet34 encoder, trained using the Connectionist Temporal Classification (CTC) loss function to effectively capture sequential dependencies. This report offers valuable insights and suggests potential directions for future research.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Improving OCR for Historical Texts of Multiple Languages

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация