Towards Scalable Training for Handwritten Mathematical Expression Recognition
2508.09220v1
cs.CV, cs.AI
2025-08-15
Авторы:
Haoyang Li, Jiaqing Li, Jialun Cao, Zongyuan Yang, Yongping Xiong
Резюме на русском
## Контекст
Понимание и распознавание записанных вручную математических выражений (HMER) является важной задачей в области обработки естественного языка и распознавания записанных рукой. Несмотря на развитие глубокого обучения, HMER сталкивается с ограничениями, возникающими из-за недостатка качественных данных для обучения. Аннотация записей рукой является трудоемкой и дорогостоящей процедурой, что приводит к нехватке данных для эффективного обучения моделей. Эта проблема становится особенно актуальной в сравнении с другими областями г DEEP LEARNING, где доступно больше данных. Данный работа адресует эти ограничения, предлагая методы для увеличения и улучшения наборов данных для обучения моделей HMER.
## Метод
Методология предложенной работы основывается на создании и адаптации обширных наборов данных для обучения моделей HMER. Разработан метод, который интегрирует ограниченные наборы рукописных формул с большими наборами данных, генерируемых на основе LaTeX. Был разработан специальный движок, позволяющий генерировать высококачественные и консистентные данные в формате LaTeX. Этот движок использовался для создания крупнейшего набора данных для HMER, \texttt{Tex80M}, состоящего из более чем 80 миллионов высококачественных обучающих экземпляров. Далее, предлагается модель \texttt{TexTeller}, которая использует этот новый набор данных для многостадийного обучения (mix-training). Такая модель обучается на комбинации \texttt{Tex80M} и меньших наборов рукописных формул, чтобы повысить эффективность распознавания.
## Результаты
Эксперименты проводились с использованием крупных выборок данных, включая \texttt{Tex80M} и меньшие наборы рукописных формул. Модель \texttt{TexTeller} протестирована на нескольких бенчмарках, где показала статистически значимые улучшения по сравнению с предыдущими моделями. Были измерены показатели точности распознавания, время обучения и обработки, а также оценена степень общности модели. Результаты показали, что \texttt{TexTeller} достигает состояния лидирующего подхода (SOTA) в HMER, существенно повышая производительность и точность в распознавании записанных рукой математических выражений.
## Значимость
Результаты работы могут быть применены в различных сферах, где требуется автоматическое распознавание рукописных математических выражений, включая обработку рукописных документов, интерактивные системы обучения, системы помощи ученым и студентам. Основные преимущества этой работы заключаются в расширении и улучшении наборов данных, что позволяет повысить точность и универсальность моделей HMER. Будущие исследования могут сфокусироваться на доработке архитектуры модели, улучшении скорости обучения и расширении применени
Abstract
Large foundation models have achieved significant performance gains through
scalable training on massive datasets. However, the field of
\textbf{H}andwritten \textbf{M}athematical \textbf{E}xpression
\textbf{R}ecognition (HMER) has been impeded by the scarcity of data, primarily
due to the arduous and costly process of manual annotation. To bridge this gap,
we propose a novel method integrating limited handwritten formulas with
large-scale LaTeX-rendered formulas by developing a scalable data engine to
generate complex and consistent LaTeX sequences. With this engine, we built the
largest formula dataset to date, termed \texttt{Tex80M}, comprising over 80
million high-quality training instances. Then we propose \texttt{TexTeller},
the first HMER model trained at scale, by mix-training \texttt{Tex80M} with a
relatively small HME dataset. The expansive training dataset and our refined
pipeline have equipped \texttt{TexTeller} with state-of-the-art (SOTA)
performance across nearly all benchmarks. To advance the field, we will openly
release our complete model, entire dataset, and full codebase, enabling further
research building upon our contributions.
Ссылки и действия
Дополнительные ресурсы: