A Sobel-Gradient MLP Baseline for Handwritten Character Recognition

2508.11902v1 cs.CV, cs.LG 2025-08-19
Авторы:

Azam Nouri

Резюме на русском

## Контекст Область исследования — распознавание письменных символов, а именно рукописных символов. Данная область имеет приложения в различных сферах, от документов процессинга до обработки и анализа данных. Одной из основных проблем является необходимость в эффективных и простых алгоритмах, которые могут обрабатывать такие данные. Существующие решения, такие как сверточные нейронные сети (CNNs), показали высокую эффективность, но они часто требуют большого объема вычислительных ресурсов и имеют непрозрачные функции. Мотивация заключается в поиске альтернативных подходов, которые могут обеспечить точность распознавания при меньшем потреблении ресурсов и большей прозрачностью. ## Метод Методология, использованная в работе, основывается на использовании классического оператора Sobel для вычисления горизонтальных и вертикальных производных изображений рукописных символов. Эти производные используются в качестве входных данных для многослойной перцептронной сети (MLP). Архитектура MLP представляет собой простой, но мощный подход, не использующий сложные сверточные слои. Это дает возможность сократить количество параметров и улучшить прозрачность решений. Размер изображений символов составляет 28x28 пикселей, что обеспечивает достаточную точность для распознавания. ## Результаты На экспериментах, проведенных на двух наборах данных — MNIST и EMNIST Letters — продемонстрирована высокая точность распознавания. Для MNIST цифр точность достигла 98%, а для EMNIST Letters — 92%. Эти результаты примерно соответствуют достигаемым результатам с использованием CNN, но с значительными преимуществами в простоте и эффективности. Модель имеет меньший размер модели и транспарентные функции, что делает ее более привлекательной для применения в реальных ситуациях. ## Значимость Результаты имеют значительное значение в области распознавания рукописных символов. Данный подход может быть применен в различных приложениях, таких как цифровая обработка документов, оптическое распознавание символов и другие задачи, требующие точного распознавания письменных символов. Одним из основных преимуществ является уменьшение потребления ресурсов и простота модели, что позволяет быстрее и эффективнее развертывать решения. Это может привести к повышению производительности и экономии ресурсов в промышленных приложениях. ## Выводы Основной достижением работы является то, что простые edge-aware MLPs могут показать высокую эффективность в задачах распознавания рукописных символов, подобно CNN. Это открывает новые возможности для создания эффективных, простых и прозрачных алгоритмов. Будущие исследования будут направлены на улучшение то

Abstract

We revisit the classical Sobel operator to ask a simple question: Are first-order edge maps sufficient to drive an all-dense multilayer perceptron (MLP) for handwritten character recognition (HCR), as an alternative to convolutional neural networks (CNNs)? Using only horizontal and vertical Sobel derivatives as input, we train an MLP on MNIST and EMNIST Letters. Despite its extreme simplicity, the resulting network reaches 98% accuracy on MNIST digits and 92% on EMNIST letters -- approaching CNNs while offering a smaller memory footprint and transparent features. Our findings highlight that much of the class-discriminative information in handwritten character images is already captured by first-order gradients, making edge-aware MLPs a compelling option for HCR.

Ссылки и действия