CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition
2509.19768v1
cs.CL, cs.CV
2025-09-26
Авторы:
Sina J. Semnani, Han Zhang, Xinyan He, Merve Tekgürler, Monica S. Lam
Резюме на русском
## Контекст
Изучение и сохранение культурного наследия требуют эффективных методов распознавания текстов в исторических документах. Несмотря на прогресс в области виджн-лангуедж моделей (VLMs), они недостаточно адаптированы для работы с историческими материалами, которые отличаются разнообразием языков и письменностей, нестандартными лейаутами и частыми повреждениями. Эти особенности мешают применению существующих моделей к распознаванию исторических текстов. Для решения этой проблемы необходим специализированный подход, обеспечивающий высокую точность и экономичность работы с историческими документами.
## Метод
Чтобы создать модель, специализированную на распознавании исторических текстов, была разработана новая методология, основанная на создании прототипа модели CHURRO (CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition). Эта модель является open-weight VLM с 3 миллиардами параметров. Она была обучена на CHURRO-DS — крупнейшей на данный момент датасете, состоящем из 155 исторических корпусов, включающих 99 491 страниц текста, разнообразных языков и письменностей за 22 века. Модель обладает уникальными характеристиками, позволяющими ей справляться с разнообразием языков, нестандартной лейаутом и многообразием текстов, в том числе и исторических деадаций.
## Результаты
Проведены эксперименты с различными моделями, включая не только CHURRO, но и другие VLMs и системы ОКР (Optical Character Recognition). Результаты показали, что CHURRO доминирует в задаче распознавания текстов, получив 82,3% точности для печатных и 70,1% для рукописных текстов, что значительно превосходит вторую лучшую модель Gemini 2.5 Pro, получившую 1.4% и 6.5% более высокую точность, соответственно. Это был достигнут за счет применения современных методов обучения с применением глубокого обучения, что позволило минимизировать ошибки и увеличить эффективность модели распознавания текста. Модель CHURRO также показала себя как 15,5 раз экономичнее в своих затратах, чем другие модели.
## Значимость
Результаты CHURRO открывают перспективы для совершенствования методов распознавания текстов в исторических документах, что может иметь большое значение для сохранения и изучения культурного наследия. Эта модель может быть применена в различных областях, включая архивное хранение документов, историческое исследование и создание интерактивных исторических интерфейсов. Из-за своей экономичности и высокой точности, CHURRO может стать ключевым инструментом для ускорения научного исследования и сохранения культурного наследия.
## Выводы
Результаты CHUR
Abstract
Accurate text recognition for historical documents can greatly advance the
study and preservation of cultural heritage. Existing vision-language models
(VLMs), however, are designed for modern, standardized texts and are not
equipped to read the diverse languages and scripts, irregular layouts, and
frequent degradation found in historical materials.
This paper presents CHURRO, a 3B-parameter open-weight VLM specialized for
historical text recognition. The model is trained on CHURRO-DS, the largest
historical text recognition dataset to date. CHURRO-DS unifies 155 historical
corpora comprising 99,491 pages, spanning 22 centuries of textual heritage
across 46 language clusters, including historical variants and dead languages.
We evaluate several open-weight and closed VLMs and optical character
recognition (OCR) systems on CHURRO-DS and find that CHURRO outperforms all
other VLMs. On the CHURRO-DS test set, CHURRO achieves 82.3% (printed) and
70.1% (handwritten) normalized Levenshtein similarity, surpassing the
second-best model, Gemini 2.5 Pro, by 1.4% and 6.5%, respectively, while being
15.5 times more cost-effective.
By releasing the model and dataset, we aim to enable community-driven
research to improve the readability of historical texts and accelerate
scholarship.
Ссылки и действия
Дополнительные ресурсы: