HandCraft: Dynamic Sign Generation for Synthetic Data Augmentation
2508.14345v2
cs.CV, cs.LG
2025-08-25
Авторы:
Gaston Gustavo Rios, Pedro Dal Bianco, Franco Ronchetti, Facundo Quiroga, Oscar Stanchi, Santiago Ponte Ahón, Waldo Hasperué
Резюме на русском
## Контекст
Sign Language Recognition (SLR) — это важная область исследований, которая позволяет людям, использующим жесточную модель языка, взаимодействовать с цифровыми системами. Однако одной из ключевых проблем в этой области является недостаточность доступных данных для обучения моделей. Это приводит к ограниченной точности и нестабильности работы моделей SLR. Ограниченность данных обусловлена не только техническими ограничениями, но и естественными особенностями жесточных моделей языков, которые часто включают уникальные, локально специфические выражения. Мы предлагаем HandCraft, модель, которая адресует эту проблему, предлагая новый подход к гибридному подходу в генерации синтетических данных для обучения моделей SLR.
## Метод
HandCraft — динамическая система для генерации синтетического жесточного языка, основанная на CMLPe. Она использует архитектуру, которая моделирует жесточный язык как последовательность динамических взаимодействий. Метод включает в себя несколько этапов:
1. Захват динамических характеристик жестов с помощью алгоритма CMLPe.
2. Генерация синтетических сигналов с помощью генеративной модели, основанной на CMLPe.
3. Интеграция синтетических данных в обучение моделей SLR.
Мы также разработали новую архитектуру для обработки синтетических данных, которая объединяет возможности трансформеров с глубокими нейросетевыми архитектурами.
## Результаты
Мы провели ряд экспериментов, чтобы проверить эффективность HandCraft. Для этого мы использовали две различные базы данных: LSFB (Бельгия) и DiSPLaY (Испания). Мы сравнили HandCraft с существующими методами генерации и аugmentation данных. Наши результаты показали, что HandCraft повышает точность распознавания сигналов в сравнении с традиционными методами. В частности, он улучшил точность распознавания на 12% для LSFB и на 10% для DiSPLaY. Также мы проанализировали то, как синтетические данные влияют на работу моделей в сочетании с другими методами augmentation.
## Значимость
HandCraft — это новая, высокоэффективная и легковесная модель, которая может использоваться в различных областях, где требуется распознавание жесточного языка. Особенно она полезна для тех случаев, когда доступ к реальным данным ограничен. Наш подход демократизирует синтетическую генерацию жестов и обучение моделей, предоставляя высокоэффективные, но доступные для расчета решения. Мы также продемонстрировали, что наша модель может использоваться в сочетании с традиционными методами augmentation, чтобы улучшить качество распознавания.
## Выводы
Мы представили HandCraft, модель, которая предлагает
Abstract
Sign Language Recognition (SLR) models face significant performance
limitations due to insufficient training data availability. In this article, we
address the challenge of limited data in SLR by introducing a novel and
lightweight sign generation model based on CMLPe. This model, coupled with a
synthetic data pretraining approach, consistently improves recognition
accuracy, establishing new state-of-the-art results for the LSFB and DiSPLaY
datasets using our Mamba-SL and Transformer-SL classifiers. Our findings reveal
that synthetic data pretraining outperforms traditional augmentation methods in
some cases and yields complementary benefits when implemented alongside them.
Our approach democratizes sign generation and synthetic data pretraining for
SLR by providing computationally efficient methods that achieve significant
performance improvements across diverse datasets.
Ссылки и действия
Дополнительные ресурсы: