FW-GAN: Frequency-Driven Handwriting Synthesis with Wave-Modulated MLP Generator

2508.21040v1 cs.CV, cs.LG 2025-08-29
Авторы:

Huynh Tong Dang Khoa, Dang Hoai Nam, Vo Nguyen Le Duy

Резюме на русском

## Контекст Распознавание рукописных текстов (HTR) широко применяется в различных областях, но сталкивается с рядом проблем. Одной из них является нехватка меток рукописного данных, что ставит под угрозу эффективность систем распознавания. Альтернативным подходом является генерирование рукописных текстов, которое позволяет создавать разнообразные и стилистически согласованные образцы для обучения. Однако существующие методы сталкиваются с двумя основными ограничениями: затруднения в моделировании долгих зависимостей и характеристик комплексных ударов, а также недостаток учета частотной информации, которая критична для подчеркивания тонких стилистических и структурных черт. Данные ограничения послужили мотивацией для предложения FW-GAN — нового подхода к генерированию рукописных текстов, который обеспечивает качественное генерирование стилистически согласованных образцов, даже при ограниченных исходных данных. ## Метод FW-GAN представляет собой новый фреймворк для однопроходного генерирования рукописных текстов с использованием младшей перцептронной сети (MLP), адаптированной для моделирования волновых зависимостей. Генератор FW-GAN включает в себя фазово-активную Wave-MLP, которая моделирует пространственные связи с точностью, сохраняя тонкие стилистические способности. Дискриминатор FW-GAN, в свою очередь, использует высокочастотные компоненты для улучшения определения подлинности генерируемых образцов. Более того, мы предлагаем новую методику обучения, основанную на Frequency Distribution Loss, которая синхронизирует частотные характеристики генерируемых и реальных образцов, улучшая их визуальную точность. Эта архитектура обеспечивает сбалансированный подход к моделированию сложных рукописных текстов. ## Результаты Мы проверили FW-GAN на двух рукописных данных — версиях вьетнамского и английского языков. Эксперименты показали, что FW-GAN выдает высококачественные, стилистически согласованные образцы текста, которые соответствуют реальному рукописному стилю. Мы также проводили сравнение с другими методами, доказав, что FW-GAN показывает высокую точность в генерировании и высокую степень согласованности стиля. Эти результаты подтверждают то, что FW-GAN является эффективным инструментом для расширения обучающих выборок в низкоресурсных сценариях распознавания рукописного текста. ## Значимость FW-GAN может применяться в различных сферах, где нуждается в создании рукописных образцов для распознавания текста, таких как тренировка моделей распознавания, генерация учебных материалов или создание имитационных систем рукописного ввода. О

Abstract

Labeled handwriting data is often scarce, limiting the effectiveness of recognition systems that require diverse, style-consistent training samples. Handwriting synthesis offers a promising solution by generating artificial data to augment training. However, current methods face two major limitations. First, most are built on conventional convolutional architectures, which struggle to model long-range dependencies and complex stroke patterns. Second, they largely ignore the crucial role of frequency information, which is essential for capturing fine-grained stylistic and structural details in handwriting. To address these challenges, we propose FW-GAN, a one-shot handwriting synthesis framework that generates realistic, writer-consistent text from a single example. Our generator integrates a phase-aware Wave-MLP to better capture spatial relationships while preserving subtle stylistic cues. We further introduce a frequency-guided discriminator that leverages high-frequency components to enhance the authenticity detection of generated samples. Additionally, we introduce a novel Frequency Distribution Loss that aligns the frequency characteristics of synthetic and real handwriting, thereby enhancing visual fidelity. Experiments on Vietnamese and English handwriting datasets demonstrate that FW-GAN generates high-quality, style-consistent handwriting, making it a valuable tool for augmenting data in low-resource handwriting recognition (HTR) pipelines. Official implementation is available at https://github.com/DAIR-Group/FW-GAN

Ссылки и действия