An MLP Baseline for Handwriting Recognition Using Planar Curvature and Gradient Orientation
2508.11803v1
cs.CV, cs.LG
2025-08-19
Авторы:
Azam Nouri
Резюме на русском
## Контекст
Написание с помощью ручного управления является одним из наиболее ранних и важных способов трансляции мыслей в материальное произведение. Однако, с другой стороны, распознавание написанного текста по-прежнему остается вызовом, особенно при использовании алгоритмов машинного обучения. Основной проблемой в этой области является то, что распознавание текста часто требует обработки больших массивов данных, что может быть труднодоступно для моделей, не оснащенных специальным аппаратным обеспечением. Традиционными методами являются сверточные нейронные сети (CNNs), но они могут быть нереалистичными для реализации в ограниченных ресурсах. В этом исследовании рассматривается возможность использования простого многослойного перцептрона (MLP) для распознавания рукописного текста с использованием геометрических признаков.
## Метод
В данном исследовании используется многослойный перцептрон (MLP), который принимает три геометрических признака: магнитуду и знак плоской кривизны, а также угол направления градиента. Эти признаки были вычислены из изображений рукописных символов, применяя последовательность инвариантных преобразований. Эта модель противопоставляется CNN-моделям, используемым в объяснении распознавания рукописного текста. Использование MLP позволяет достичь высокой точности распознавания с меньшими вычислительными затратами.
## Резултаты
Исследование проводилось на двух наборах данных: МНИСТ (Министерство Образования и Науки США) и EMNIST (Enlarged MNIST). На MNIST данные показали, что модель MLP достигла 97% точности в распознавании рукописных цифр. На EMNIST, модель достигла 89% точности в распознавании рукописных букв. Эти результаты демонстрируют, что MLP может использоваться для распознавания рукописных символов с высокой точностью, даже если используются геометрические признаки.
## Значимость
Это исследование открывает новые пути для использования MLP в задачах распознавания рукописного текста. Из-за его простоты и эффективности, он может быть применен в реальных системах, где требуется высокая точность и низкий потребление ресурсов. Модель также может быть использована в задачах, где необходима полная прозрачность работы модели, так как веса MLP могут быть легко интерпретированы.
## Выводы
В ходе исследования было показано, что извлечение геометрических признаков может быть достаточно для того, чтобы достичь высокой точности распознавания рукописного текста. Это демонстрирует перспективу использования MLP в ситуациях, где ресурсы ограничены. В будущем можно будет расширить исследование, используя более сло
Abstract
This study investigates whether second-order geometric cues - planar
curvature magnitude, curvature sign, and gradient orientation - are sufficient
on their own to drive a multilayer perceptron (MLP) classifier for handwritten
character recognition (HCR), offering an alternative to convolutional neural
networks (CNNs). Using these three handcrafted feature maps as inputs, our
curvature-orientation MLP achieves 97 percent accuracy on MNIST digits and 89
percent on EMNIST letters. These results underscore the discriminative power of
curvature-based representations for handwritten character images and
demonstrate that the advantages of deep learning can be realized even with
interpretable, hand-engineered features.
Ссылки и действия
Дополнительные ресурсы: