Towards Scalable Training for Handwritten Mathematical Expression Recognition

2508.09220v1 cs.CV, cs.AI 2025-08-15

Авторы:

Haoyang Li, Jiaqing Li, Jialun Cao, Zongyuan Yang, Yongping Xiong

Резюме на русском

## Контекст Понимание и распознавание записанных вручную математических выражений (HMER) является важной задачей в области обработки естественного языка и распознавания записанных рукой. Несмотря на развитие глубокого обучения, HMER сталкивается с ограничениями, возникающими из-за недостатка качественных данных для обучения. Аннотация записей рукой является трудоемкой и дорогостоящей процедурой, что приводит к нехватке данных для эффективного обучения моделей. Эта проблема становится особенно актуальной в сравнении с другими областями г DEEP LEARNING, где доступно больше данных. Данный работа адресует эти ограничения, предлагая методы для увеличения и улучшения наборов данных для обучения моделей HMER. ## Метод Методология предложенной работы основывается на создании и адаптации обширных наборов данных для обучения моделей HMER. Разработан метод, который интегрирует ограниченные наборы рукописных формул с большими наборами данных, генерируемых на основе LaTeX. Был разработан специальный движок, позволяющий генерировать высококачественные и консистентные данные в формате LaTeX. Этот движок использовался для создания крупнейшего набора данных для HMER, \texttt{Tex80M}, состоящего из более чем 80 миллионов высококачественных обучающих экземпляров. Далее, предлагается модель \texttt{TexTeller}, которая использует этот новый набор данных для многостадийного обучения (mix-training). Такая модель обучается на комбинации \texttt{Tex80M} и меньших наборов рукописных формул, чтобы повысить эффективность распознавания. ## Результаты Эксперименты проводились с использованием крупных выборок данных, включая \texttt{Tex80M} и меньшие наборы рукописных формул. Модель \texttt{TexTeller} протестирована на нескольких бенчмарках, где показала статистически значимые улучшения по сравнению с предыдущими моделями. Были измерены показатели точности распознавания, время обучения и обработки, а также оценена степень общности модели. Результаты показали, что \texttt{TexTeller} достигает состояния лидирующего подхода (SOTA) в HMER, существенно повышая производительность и точность в распознавании записанных рукой математических выражений. ## Значимость Результаты работы могут быть применены в различных сферах, где требуется автоматическое распознавание рукописных математических выражений, включая обработку рукописных документов, интерактивные системы обучения, системы помощи ученым и студентам. Основные преимущества этой работы заключаются в расширении и улучшении наборов данных, что позволяет повысить точность и универсальность моделей HMER. Будущие исследования могут сфокусироваться на доработке архитектуры модели, улучшении скорости обучения и расширении применени

Abstract

Large foundation models have achieved significant performance gains through scalable training on massive datasets. However, the field of \textbf{H}andwritten \textbf{M}athematical \textbf{E}xpression \textbf{R}ecognition (HMER) has been impeded by the scarcity of data, primarily due to the arduous and costly process of manual annotation. To bridge this gap, we propose a novel method integrating limited handwritten formulas with large-scale LaTeX-rendered formulas by developing a scalable data engine to generate complex and consistent LaTeX sequences. With this engine, we built the largest formula dataset to date, termed \texttt{Tex80M}, comprising over 80 million high-quality training instances. Then we propose \texttt{TexTeller}, the first HMER model trained at scale, by mix-training \texttt{Tex80M} with a relatively small HME dataset. The expansive training dataset and our refined pipeline have equipped \texttt{TexTeller} with state-of-the-art (SOTA) performance across nearly all benchmarks. To advance the field, we will openly release our complete model, entire dataset, and full codebase, enabling further research building upon our contributions.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Towards Scalable Training for Handwritten Mathematical Expression Recognition

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация