An MLP Baseline for Handwriting Recognition Using Planar Curvature and Gradient Orientation

2508.11803v1 cs.CV, cs.LG 2025-08-19
Авторы:

Azam Nouri

Резюме на русском

## Контекст Написание с помощью ручного управления является одним из наиболее ранних и важных способов трансляции мыслей в материальное произведение. Однако, с другой стороны, распознавание написанного текста по-прежнему остается вызовом, особенно при использовании алгоритмов машинного обучения. Основной проблемой в этой области является то, что распознавание текста часто требует обработки больших массивов данных, что может быть труднодоступно для моделей, не оснащенных специальным аппаратным обеспечением. Традиционными методами являются сверточные нейронные сети (CNNs), но они могут быть нереалистичными для реализации в ограниченных ресурсах. В этом исследовании рассматривается возможность использования простого многослойного перцептрона (MLP) для распознавания рукописного текста с использованием геометрических признаков. ## Метод В данном исследовании используется многослойный перцептрон (MLP), который принимает три геометрических признака: магнитуду и знак плоской кривизны, а также угол направления градиента. Эти признаки были вычислены из изображений рукописных символов, применяя последовательность инвариантных преобразований. Эта модель противопоставляется CNN-моделям, используемым в объяснении распознавания рукописного текста. Использование MLP позволяет достичь высокой точности распознавания с меньшими вычислительными затратами. ## Резултаты Исследование проводилось на двух наборах данных: МНИСТ (Министерство Образования и Науки США) и EMNIST (Enlarged MNIST). На MNIST данные показали, что модель MLP достигла 97% точности в распознавании рукописных цифр. На EMNIST, модель достигла 89% точности в распознавании рукописных букв. Эти результаты демонстрируют, что MLP может использоваться для распознавания рукописных символов с высокой точностью, даже если используются геометрические признаки. ## Значимость Это исследование открывает новые пути для использования MLP в задачах распознавания рукописного текста. Из-за его простоты и эффективности, он может быть применен в реальных системах, где требуется высокая точность и низкий потребление ресурсов. Модель также может быть использована в задачах, где необходима полная прозрачность работы модели, так как веса MLP могут быть легко интерпретированы. ## Выводы В ходе исследования было показано, что извлечение геометрических признаков может быть достаточно для того, чтобы достичь высокой точности распознавания рукописного текста. Это демонстрирует перспективу использования MLP в ситуациях, где ресурсы ограничены. В будущем можно будет расширить исследование, используя более сло

Abstract

This study investigates whether second-order geometric cues - planar curvature magnitude, curvature sign, and gradient orientation - are sufficient on their own to drive a multilayer perceptron (MLP) classifier for handwritten character recognition (HCR), offering an alternative to convolutional neural networks (CNNs). Using these three handcrafted feature maps as inputs, our curvature-orientation MLP achieves 97 percent accuracy on MNIST digits and 89 percent on EMNIST letters. These results underscore the discriminative power of curvature-based representations for handwritten character images and demonstrate that the advantages of deep learning can be realized even with interpretable, hand-engineered features.

Ссылки и действия