📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Jing Yang, Qiyao Wei, Jiaxin Pei
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The rapid growth of AI conferences is straining an already fragile
peer-review system, leading to heavy reviewer workloads, expertise mismatches,
inconsistent evaluation standards, superficial or templated reviews, and
limited accountability under compressed timelines. In response, conference
organizers have introduced new policies and interventions to preserve review
standards. Yet these ad-hoc changes often create further concerns and confusion
about the review process, leaving how papers are ...
Авторы:
Erez Meoded
#### Контекст
Историческое рукописное текстовое распознавание (HTR) является ключевым инструментом для раскрытия культурного и научного значения архивных документов. Однако данный процесс часто сталкивается с рядовыми трудностями, включая нехватку готовых транскрипций, вариативность языка и разнообразие рукописных почерков. Эти факторы сильно затрудняют дигитализацию и доступ к историческим текстам. В данном исследовании рассматривается новейшая transformer-based HTR-модель TrOCR, примененная к рукописным текстам 16-го века на латинском языке, написанным Рудольфом Гвалтером. Исследования сосредотачиваются на оптимизации изображений, использовании разнообразных методов аугментации и стратегиях ансамблевых методов.
#### Метод
В этой работе применяется TrOCR, являющаяся современной transformer-based HTR-модель, специально адаптированная для работы с историческими рукописями. Для улучшения качества распознавания были разработаны и испытаны четыре новые метода аугментации, призванные компенсировать характеристики рукописного почерка 16-го века. Набор данных Gwalther был использован для проведения экспериментов. Также рассматривались стратегии ensemble-learning, нацеленные на объединение сил различных моделей, тренированных с разными аугментациями. Эти методы позволили увеличить точность распознавания и снизить Character Error Rate (CER).
#### Результаты
В ходе экспериментов на датасете Gwalther с использованием TrOCR-BASIC было достигнуто Character Error Rate (CER) в 1.86. Это значение сократилось до 1.60 при использовании ensemble-learning, что составляет 50% относительного улучшения по сравнению с предыдущими результатами и 42% – по сравнению с предыдущим состоянием искусства. Особое внимание было уделено таким аугментационным методам, как Elastic, которые особенно эффективны для характеристик исторического рукописного почерка. Эти результаты демонстрируют значимость добавления доменно-специфических методов аугментации и ensemble-learning в HTR.
#### Значимость
Результаты этого исследования могут быть применены в области дигитализации исторических рукописей, где требуется высокая точность распознавания текстов. Методы, предложенные в работе, демонстрируют преимущества в улучшении качества перевода рукописных текстов, снижая ошибки и увеличивая доступность таких документов для широкого круга специалистов. Эти технологии могут быть применены в различных областях, включая историческое исследование, лингвистику и доступ к культурным артефактам.
#### Выводы
Исследование показало, что transformer-based модели, такие как TrOCR, достаточно эффективны для распознавания рукописных текстов 16-го века. Од
Annotation:
Historical handwritten text recognition (HTR) is essential for unlocking the
cultural and scholarly value of archival documents, yet digitization is often
hindered by scarce transcriptions, linguistic variation, and highly diverse
handwriting styles. In this study, we apply TrOCR, a state-of-the-art
transformer-based HTR model, to 16th-century Latin manuscripts authored by
Rudolf Gwalther. We investigate targeted image preprocessing and a broad suite
of data augmentation techniques, introducing ...