Handwritten Text Recognition of Historical Manuscripts Using Transformer-Based Models

2508.11499v1 cs.CV, cs.AI, cs.DL, cs.LG 2025-08-19

Авторы:

Erez Meoded

Резюме на русском

#### Контекст Историческое рукописное текстовое распознавание (HTR) является ключевым инструментом для раскрытия культурного и научного значения архивных документов. Однако данный процесс часто сталкивается с рядовыми трудностями, включая нехватку готовых транскрипций, вариативность языка и разнообразие рукописных почерков. Эти факторы сильно затрудняют дигитализацию и доступ к историческим текстам. В данном исследовании рассматривается новейшая transformer-based HTR-модель TrOCR, примененная к рукописным текстам 16-го века на латинском языке, написанным Рудольфом Гвалтером. Исследования сосредотачиваются на оптимизации изображений, использовании разнообразных методов аугментации и стратегиях ансамблевых методов. #### Метод В этой работе применяется TrOCR, являющаяся современной transformer-based HTR-модель, специально адаптированная для работы с историческими рукописями. Для улучшения качества распознавания были разработаны и испытаны четыре новые метода аугментации, призванные компенсировать характеристики рукописного почерка 16-го века. Набор данных Gwalther был использован для проведения экспериментов. Также рассматривались стратегии ensemble-learning, нацеленные на объединение сил различных моделей, тренированных с разными аугментациями. Эти методы позволили увеличить точность распознавания и снизить Character Error Rate (CER). #### Результаты В ходе экспериментов на датасете Gwalther с использованием TrOCR-BASIC было достигнуто Character Error Rate (CER) в 1.86. Это значение сократилось до 1.60 при использовании ensemble-learning, что составляет 50% относительного улучшения по сравнению с предыдущими результатами и 42% – по сравнению с предыдущим состоянием искусства. Особое внимание было уделено таким аугментационным методам, как Elastic, которые особенно эффективны для характеристик исторического рукописного почерка. Эти результаты демонстрируют значимость добавления доменно-специфических методов аугментации и ensemble-learning в HTR. #### Значимость Результаты этого исследования могут быть применены в области дигитализации исторических рукописей, где требуется высокая точность распознавания текстов. Методы, предложенные в работе, демонстрируют преимущества в улучшении качества перевода рукописных текстов, снижая ошибки и увеличивая доступность таких документов для широкого круга специалистов. Эти технологии могут быть применены в различных областях, включая историческое исследование, лингвистику и доступ к культурным артефактам. #### Выводы Исследование показало, что transformer-based модели, такие как TrOCR, достаточно эффективны для распознавания рукописных текстов 16-го века. Од

Abstract

Historical handwritten text recognition (HTR) is essential for unlocking the cultural and scholarly value of archival documents, yet digitization is often hindered by scarce transcriptions, linguistic variation, and highly diverse handwriting styles. In this study, we apply TrOCR, a state-of-the-art transformer-based HTR model, to 16th-century Latin manuscripts authored by Rudolf Gwalther. We investigate targeted image preprocessing and a broad suite of data augmentation techniques, introducing four novel augmentation methods designed specifically for historical handwriting characteristics. We also evaluate ensemble learning approaches to leverage the complementary strengths of augmentation-trained models. On the Gwalther dataset, our best single-model augmentation (Elastic) achieves a Character Error Rate (CER) of 1.86, while a top-5 voting ensemble achieves a CER of 1.60 - representing a 50% relative improvement over the best reported TrOCR_BASE result and a 42% improvement over the previous state of the art. These results highlight the impact of domain-specific augmentations and ensemble strategies in advancing HTR performance for historical manuscripts.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Handwritten Text Recognition of Historical Manuscripts Using Transformer-Based Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Paper Copilot: Tracking the Evolution of Peer Review in AI Conferences

Навигация