Layout-Aware OCR for Black Digital Archives with Unsupervised Evaluation

2509.13236v1 cs.DL, cs.AI 2025-09-18

Авторы:

Fitsum Sileshi Beyene, Christopher L. Dancy

Резюме на русском

## Контекст Область исследования, связанная с Optical Character Recognition (OCR) для текстов в черных цифровых архивных носителях, становится все более актуальной в исследовательских и практических задачах. Многие цифровые архивы, включая новостные издания и старые документы, имеют специфические особенности типографии, визуальных деградаций и нестандартных логик разметки, что затрудняет автоматическую распознавание текста и требует развития специализированных подходов. Большинство существующих систем OCR не учитывают эти факторы, что приводит к ошибкам и неточностям в текстовом распознавании. Эта проблема является особенно актуальной для цифровых архивов черных сообществ, где существуют уникальные требования к сохранению структуры и логики разметки текста. В нашей работе мы сосредотачиваемся на этих характеристиках и предлагаем систему OCR, учитывающую логику разметки, которая включает в себя методы машинного обучения и анализа структуры текста. ## Метод Мы предлагаем разработанную систему OCR, ориентированную на разметку, которая использует сочетание нескольких технических приемов. Методология включает в себя синтетическое генерирование структурных логик разметки, виртуальное моделирование различных стилей типографии и автоматическое адаптирование моделей распознавания текста. Используется модель You Only Look Once (YOLO), адаптированная для распознавания сложных разметок. Мы также внедрили метод нейронной сети для обучения моделей с учетом контекста текста, что позволило увеличить точность распознавания в текстах, характерных для черных цифровых архивов. Использование автоматических оценочных параметров позволяет сравнить результаты с исходными данными и убедиться в том, что модель учитывает специфику разметки. ## Результаты Мы проверили нашу систему OCR на датасете, состоящем из 400 страниц из 10 различных черных цифровых архивов. Наши результаты показали, что логика разметки текста, учтенная в нашей системе, приводит к значительному повышению точности в распознавании текста и сохранению структуры. Мы также приложили три оценочных метрики: Semantic Coherence Score (SCS), Region Entropy (RE) и Textual Redundancy Score (TRS), которые помогли измерить не только точность распознавания, но и качество сохранения семантической логики и убедиться в том, что модель не утрачивает информативности в тексте. ## Значимость Наша работа имеет большое значение для сохранения и анализа цифровых архивов черных сообществ. Она может быть применена в различных областях, включая хранение и анализ исторических документов, создание моделей для распознавания текста в специ

Abstract

Despite their cultural and historical significance, Black digital archives continue to be a structurally underrepresented area in AI research and infrastructure. This is especially evident in efforts to digitize historical Black newspapers, where inconsistent typography, visual degradation, and limited annotated layout data hinder accurate transcription, despite the availability of various systems that claim to handle optical character recognition (OCR) well. In this short paper, we present a layout-aware OCR pipeline tailored for Black newspaper archives and introduce an unsupervised evaluation framework suited to low-resource archival contexts. Our approach integrates synthetic layout generation, model pretraining on augmented data, and a fusion of state-of-the-art You Only Look Once (YOLO) detectors. We used three annotation-free evaluation metrics, the Semantic Coherence Score (SCS), Region Entropy (RE), and Textual Redundancy Score (TRS), which quantify linguistic fluency, informational diversity, and redundancy across OCR regions. Our evaluation on a 400-page dataset from ten Black newspaper titles demonstrates that layout-aware OCR improves structural diversity and reduces redundancy compared to full-page baselines, with modest trade-offs in coherence. Our results highlight the importance of respecting cultural layout logic in AI-driven document understanding and lay the foundation for future community-driven and ethically grounded archival AI systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Layout-Aware OCR for Black Digital Archives with Unsupervised Evaluation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ARISE: Agentic Rubric-Guided Iterative Survey Engine for Automated Scholarly Pap...

AI Literacy in UAE Libraries: Assessing Competencies, Training Needs, and Ethica...

Can Small and Reasoning Large Language Models Score Journal Articles for Researc...

Animer une base de connaissance: des ontologies aux mod{è}les d'I.A. g{é}n{é}rat...

Information Ecosystem Reengineering via Public Sector Knowledge Representation

Навигация