Handwritten Text Recognition of Historical Manuscripts Using Transformer-Based Models
2508.11499v1
cs.CV, cs.AI, cs.DL, cs.LG
2025-08-19
Авторы:
Erez Meoded
Резюме на русском
#### Контекст
Историческое рукописное текстовое распознавание (HTR) является ключевым инструментом для раскрытия культурного и научного значения архивных документов. Однако данный процесс часто сталкивается с рядовыми трудностями, включая нехватку готовых транскрипций, вариативность языка и разнообразие рукописных почерков. Эти факторы сильно затрудняют дигитализацию и доступ к историческим текстам. В данном исследовании рассматривается новейшая transformer-based HTR-модель TrOCR, примененная к рукописным текстам 16-го века на латинском языке, написанным Рудольфом Гвалтером. Исследования сосредотачиваются на оптимизации изображений, использовании разнообразных методов аугментации и стратегиях ансамблевых методов.
#### Метод
В этой работе применяется TrOCR, являющаяся современной transformer-based HTR-модель, специально адаптированная для работы с историческими рукописями. Для улучшения качества распознавания были разработаны и испытаны четыре новые метода аугментации, призванные компенсировать характеристики рукописного почерка 16-го века. Набор данных Gwalther был использован для проведения экспериментов. Также рассматривались стратегии ensemble-learning, нацеленные на объединение сил различных моделей, тренированных с разными аугментациями. Эти методы позволили увеличить точность распознавания и снизить Character Error Rate (CER).
#### Результаты
В ходе экспериментов на датасете Gwalther с использованием TrOCR-BASIC было достигнуто Character Error Rate (CER) в 1.86. Это значение сократилось до 1.60 при использовании ensemble-learning, что составляет 50% относительного улучшения по сравнению с предыдущими результатами и 42% – по сравнению с предыдущим состоянием искусства. Особое внимание было уделено таким аугментационным методам, как Elastic, которые особенно эффективны для характеристик исторического рукописного почерка. Эти результаты демонстрируют значимость добавления доменно-специфических методов аугментации и ensemble-learning в HTR.
#### Значимость
Результаты этого исследования могут быть применены в области дигитализации исторических рукописей, где требуется высокая точность распознавания текстов. Методы, предложенные в работе, демонстрируют преимущества в улучшении качества перевода рукописных текстов, снижая ошибки и увеличивая доступность таких документов для широкого круга специалистов. Эти технологии могут быть применены в различных областях, включая историческое исследование, лингвистику и доступ к культурным артефактам.
#### Выводы
Исследование показало, что transformer-based модели, такие как TrOCR, достаточно эффективны для распознавания рукописных текстов 16-го века. Од
Abstract
Historical handwritten text recognition (HTR) is essential for unlocking the
cultural and scholarly value of archival documents, yet digitization is often
hindered by scarce transcriptions, linguistic variation, and highly diverse
handwriting styles. In this study, we apply TrOCR, a state-of-the-art
transformer-based HTR model, to 16th-century Latin manuscripts authored by
Rudolf Gwalther. We investigate targeted image preprocessing and a broad suite
of data augmentation techniques, introducing four novel augmentation methods
designed specifically for historical handwriting characteristics. We also
evaluate ensemble learning approaches to leverage the complementary strengths
of augmentation-trained models. On the Gwalther dataset, our best single-model
augmentation (Elastic) achieves a Character Error Rate (CER) of 1.86, while a
top-5 voting ensemble achieves a CER of 1.60 - representing a 50% relative
improvement over the best reported TrOCR_BASE result and a 42% improvement over
the previous state of the art. These results highlight the impact of
domain-specific augmentations and ensemble strategies in advancing HTR
performance for historical manuscripts.