Few-Shot Connectivity-Aware Text Line Segmentation in Historical Documents

2508.19162v1 cs.CV, cs.AI, cs.LG 2025-08-28

Авторы:

Rafael Sterzinger, Tingyu Lin, Robert Sablatnig

Резюме на русском

#### Контекст Цель данной работы — развить методы автоматической сегментации текстовых строк в исторических документах с малой доступной аннотированной информацией. Текстовая сегментация является ключевым этапом для цифровых аналитических задач документов. Однако, существующие техники часто требуют больших объемов аннотированных данных, которые недоступны для исторических документов из-за их характера и сложности. Эта нехватка данных приводит к ошибкам и неточности в автоматизированных системах. Более того, аннотация текстовых строк в исторических документах является затратным и трудоёмким процессом, поскольку требует глубокого знания текстовой области. Методология few-shot learning может оказаться эффективным решением для этих проблем, поскольку она способна обучаться на малых объемах данных. В настоящей работе мы исследуем, могут ли лёгкие и простые архитектуры, оптимизированные с использованием топологии-агностической функции потерь, превзойти более сложные модели в этой задаче. #### Метод Мы предлагаем архитектуру возвратной нейросети с небольшим количеством параметров, которая использует свёрточные слои, свёрточные слои UNet++ и свёрточные фильтры для обнаружения текстовых строк. Для оптимизации модели мы разработали топология-агностическую функцию потерь, которая используется для наглядного фильтрации и корректировки структуры текстовых строк. Мы тренируем нашу модель на небольших сегментах (взятых из трёх аннотированных страниц) из различных рукописных манускриптов. Это позволяет нам минимизировать объём данных, необходимый для обучения, и улучшить точность и качество работы модели. #### Результаты Мы сравнили нашу модель с современными моделями, использующими более сложные архитектуры и большие объёмы данных. Наши результаты показали, что наш метод превосходит конкуренты по метрикам Recognition Accuracy (увеличение на 200%) и Line Intersection over Union (увеличение на 75%) на датасете U-DIADS-TL. Также, мы достигли F-Measure-скоринга, который в некоторых случаях превышает результаты главного конкурента в задаче базового определения деления на строки в DIVA-HisDB. Это достигается с минимальным объёмом данных (только три аннотированные страницы), чего не достигают другие модели. #### Значимость Мы видим применение нашей модели в реальных задачах цифровой обработки документов, в частности в текстовой сегментации в исторических рукописях. Метод позволяет существенно уменьшить объем аннотации, необходимого для обучения, что существенно экономит ресурсы. Это может стать ключевым преимуществом в ситуациях, когда доступ к большим данным ограничен,

Abstract

A foundational task for the digital analysis of documents is text line segmentation. However, automating this process with deep learning models is challenging because it requires large, annotated datasets that are often unavailable for historical documents. Additionally, the annotation process is a labor- and cost-intensive task that requires expert knowledge, which makes few-shot learning a promising direction for reducing data requirements. In this work, we demonstrate that small and simple architectures, coupled with a topology-aware loss function, are more accurate and data-efficient than more complex alternatives. We pair a lightweight UNet++ with a connectivity-aware loss, initially developed for neuron morphology, which explicitly penalizes structural errors like line fragmentation and unintended line merges. To increase our limited data, we train on small patches extracted from a mere three annotated pages per manuscript. Our methodology significantly improves upon the current state-of-the-art on the U-DIADS-TL dataset, with a 200% increase in Recognition Accuracy and a 75% increase in Line Intersection over Union. Our method also achieves an F-Measure score on par with or even exceeding that of the competition winner of the DIVA-HisDB baseline detection task, all while requiring only three annotated pages, exemplifying the efficacy of our approach. Our implementation is publicly available at: https://github.com/RafaelSterzinger/acpr_few_shot_hist.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Few-Shot Connectivity-Aware Text Line Segmentation in Historical Documents

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация