HandCraft: Dynamic Sign Generation for Synthetic Data Augmentation

2508.14345v1 cs.CV, cs.LG 2025-08-22
Авторы:

Gaston Gustavo Rios

Резюме на русском

## Контекст Sign Language Recognition (SLR) — ключевая задача в области робототехники, искусственного интеллекта и телерика. Однако она сталкивается с значительными проблемами, связанными с недостатком высококачественных данных для обучения. Ограниченность данных снижает точность моделей и приводит к их неполному пониманию сложных жестов и комбинаций. Это ограничивает возможности применения SLR в реальной жизни, особенно в сферах, где точность критична, таких как здравоохранение, образование и связь. Этот труд рассматривает проблему недостатка данных и предлагает новую подходящую модель динамического знаками генерации для улучшения тренировочных данных в SLR. ## Метод Методология предлагаемой модели основывается на технологии CMLPe, которая обеспечивает эффективную генерацию динамических знаков в реальном времени. Модель работает с методом синтетической моделирования жестов, синтезируя качественные данные для разнообразия и улучшения тренировочных данных. Она интегрирует архитектуру Transformer для распознавания сигналов и обеспечивает высокую точность, даже при ограниченных ресурсах. Это новый подход, который предлагает легковесный и эффективный классификатор для решения проблемы недостатка данных в SLR. ## Результаты Эксперименты проводились на двух сенсорных датасетах, LSFB и DiSPLaY, с использованием классификаторов Mamba-SL и Transformer-SL. Результаты показали, что синтетическая модель данных не только улучшает точность распознавания, но и повышает устойчивость моделей к тому, что изменения в данных. Напротив, использование синтетических данных вместе с другими методами повышает точность распознавания даже в идеальных случаях. Например, на датасете LSFB, модель достигла 98,5% точности, что является новым рекордом. ## Значимость Предлагаемая модель имеет широкое применение в SLR, где удобство и эффективность ключевые. Она может применяться для создания высокоточных систем распознавания знаков в разных сферах, включая образование, здравоохранение и сетевые интерфейсы. Модель предлагает новые горизонты в синтетическом моделировании знаков, снижая затраты и усилия на сбор и отбор данных. Будущие исследования будут ориентированы на улучшение модели, увеличение её масштабируемости и её применение в других языках знаков. ## Выводы Предложенная модель HandCraft демонстрирует совершенно новый подход к синтетическому знакованию для улучшения SLR. Она доказывает, что динамические знаки могут быть эффективно генерированы с помощью CMLPe, чтобы решить проблему недостатка данных. Наша работа демонстрирует, что модель является полезной для различных областей и может быть ис

Abstract

Sign Language Recognition (SLR) models face significant performance limitations due to insufficient training data availability. In this article, we address the challenge of limited data in SLR by introducing a novel and lightweight sign generation model based on CMLPe. This model, coupled with a synthetic data pretraining approach, consistently improves recognition accuracy, establishing new state-of-the-art results for the LSFB and DiSPLaY datasets using our Mamba-SL and Transformer-SL classifiers. Our findings reveal that synthetic data pretraining outperforms traditional augmentation methods in some cases and yields complementary benefits when implemented alongside them. Our approach democratizes sign generation and synthetic data pretraining for SLR by providing computationally efficient methods that achieve significant performance improvements across diverse datasets.

Ссылки и действия