Generation of Indian Sign Language Letters, Numbers, and Words

2508.09522v1 cs.CV, cs.AI, cs.LG 2025-08-15
Авторы:

Ajeet Kumar Yadav, Nishant Kumar, Rathna G N

Резюме на русском

## Контекст Знак язык, состоящий из руковыми движений, лицевых выражений и телесных позывов, является важной средой для общения с людьми с ограниченным слухом. Уверенно справляются с ним только те, кто хорошо знаком с знаковым языком, но те, кто не имеет такого опыта, сталкиваются с значительными трудностями. Распознавание и генерация знаков являются основными методами общения между слышащими и людьми с ограниченным слухом. Изучение генерации знаков языка в значительной мере остается недостаточно развитом по сравнению с распознаванием. Актуальной является задача генерировать высококачественные изображения знаков языка для повышения эффективности общения. ## Метод Мы развиваем новую модель, основанную на Варианте Генерирующей Адверсной Сети (GAN), которая объединяет лучшие качества двух моделей: Progressive Growing of Generative Adversarial Network (ProGAN) и Self-Attention Generative Adversarial Network (SAGAN). ProGAN известен своей способностью генерировать высококачественные изображения, в то время как SAGAN известен способностью генерировать изображения с богатыми деталями на средних разрешениях. Наша модель сочетает в себе эти достоинства, достигая высокого разрешения и высокого качества. Мы также развиваем модифицированную антенно-ориентированную модель, которая улучшает процесс генерирования изображений, ориентируясь на класс-условие. Данные для обучения модели собираются с помощью специальной системы сбора данных, состоящей из 100 участников, позволяющей получить качественные изображения знаков языка. ## Результаты Мы проводим эксперименты для оценки качества генерируемых изображений с помощью Inception Score (IS) и Fr\'echet Inception Distance (FID). Результаты показывают, что наша модель превосходит ProGAN по IS на 3.2 и по FID на 30.12. Это свидетельствует о высокой качественности изображений, генерируемых нашей моделью. Также мы разработали большую выборку данных, содержащую изображения знаков языка индийского языка, включая буквы, цифры и 129 слов. Эта выборка представляет собой ресурс для развития исследований в области генерации знаков языка. ## Значимость Наша работа имеет значительное значение для общения между слышащими и людьми с ограниченным слухом, а также для развития искусственного интеллекта в области знаковых языков. Мы предоставляем новую модель, которая превосходит существующие решения по качеству и разрешению. Наша модель имеет потенциал для широкого применения в области обучения знаковому языку, видеоперевода и синтеза речи. Это может способствовать более устойчивому и эффективному общению между разными социальными г

Abstract

Sign language, which contains hand movements, facial expressions and bodily gestures, is a significant medium for communicating with hard-of-hearing people. A well-trained sign language community communicates easily, but those who don't know sign language face significant challenges. Recognition and generation are basic communication methods between hearing and hard-of-hearing individuals. Despite progress in recognition, sign language generation still needs to be explored. The Progressive Growing of Generative Adversarial Network (ProGAN) excels at producing high-quality images, while the Self-Attention Generative Adversarial Network (SAGAN) generates feature-rich images at medium resolutions. Balancing resolution and detail is crucial for sign language image generation. We are developing a Generative Adversarial Network (GAN) variant that combines both models to generate feature-rich, high-resolution, and class-conditional sign language images. Our modified Attention-based model generates high-quality images of Indian Sign Language letters, numbers, and words, outperforming the traditional ProGAN in Inception Score (IS) and Fr\'echet Inception Distance (FID), with improvements of 3.2 and 30.12, respectively. Additionally, we are publishing a large dataset incorporating high-quality images of Indian Sign Language alphabets, numbers, and 129 words.

Ссылки и действия