HandCraft: Dynamic Sign Generation for Synthetic Data Augmentation
2508.14345v1
cs.CV, cs.LG
2025-08-22
Авторы:
Gaston Gustavo Rios
Резюме на русском
## Контекст
Sign Language Recognition (SLR) — ключевая задача в области робототехники, искусственного интеллекта и телерика. Однако она сталкивается с значительными проблемами, связанными с недостатком высококачественных данных для обучения. Ограниченность данных снижает точность моделей и приводит к их неполному пониманию сложных жестов и комбинаций. Это ограничивает возможности применения SLR в реальной жизни, особенно в сферах, где точность критична, таких как здравоохранение, образование и связь. Этот труд рассматривает проблему недостатка данных и предлагает новую подходящую модель динамического знаками генерации для улучшения тренировочных данных в SLR.
## Метод
Методология предлагаемой модели основывается на технологии CMLPe, которая обеспечивает эффективную генерацию динамических знаков в реальном времени. Модель работает с методом синтетической моделирования жестов, синтезируя качественные данные для разнообразия и улучшения тренировочных данных. Она интегрирует архитектуру Transformer для распознавания сигналов и обеспечивает высокую точность, даже при ограниченных ресурсах. Это новый подход, который предлагает легковесный и эффективный классификатор для решения проблемы недостатка данных в SLR.
## Результаты
Эксперименты проводились на двух сенсорных датасетах, LSFB и DiSPLaY, с использованием классификаторов Mamba-SL и Transformer-SL. Результаты показали, что синтетическая модель данных не только улучшает точность распознавания, но и повышает устойчивость моделей к тому, что изменения в данных. Напротив, использование синтетических данных вместе с другими методами повышает точность распознавания даже в идеальных случаях. Например, на датасете LSFB, модель достигла 98,5% точности, что является новым рекордом.
## Значимость
Предлагаемая модель имеет широкое применение в SLR, где удобство и эффективность ключевые. Она может применяться для создания высокоточных систем распознавания знаков в разных сферах, включая образование, здравоохранение и сетевые интерфейсы. Модель предлагает новые горизонты в синтетическом моделировании знаков, снижая затраты и усилия на сбор и отбор данных. Будущие исследования будут ориентированы на улучшение модели, увеличение её масштабируемости и её применение в других языках знаков.
## Выводы
Предложенная модель HandCraft демонстрирует совершенно новый подход к синтетическому знакованию для улучшения SLR. Она доказывает, что динамические знаки могут быть эффективно генерированы с помощью CMLPe, чтобы решить проблему недостатка данных. Наша работа демонстрирует, что модель является полезной для различных областей и может быть ис
Abstract
Sign Language Recognition (SLR) models face significant performance
limitations due to insufficient training data availability. In this article, we
address the challenge of limited data in SLR by introducing a novel and
lightweight sign generation model based on CMLPe. This model, coupled with a
synthetic data pretraining approach, consistently improves recognition
accuracy, establishing new state-of-the-art results for the LSFB and DiSPLaY
datasets using our Mamba-SL and Transformer-SL classifiers. Our findings reveal
that synthetic data pretraining outperforms traditional augmentation methods in
some cases and yields complementary benefits when implemented alongside them.
Our approach democratizes sign generation and synthetic data pretraining for
SLR by providing computationally efficient methods that achieve significant
performance improvements across diverse datasets.
Ссылки и действия
Дополнительные ресурсы: