Generation of Indian Sign Language Letters, Numbers, and Words
2508.09522v1
cs.CV, cs.AI, cs.LG
2025-08-15
Авторы:
Ajeet Kumar Yadav, Nishant Kumar, Rathna G N
Резюме на русском
## Контекст
Знак язык, состоящий из руковыми движений, лицевых выражений и телесных позывов, является важной средой для общения с людьми с ограниченным слухом. Уверенно справляются с ним только те, кто хорошо знаком с знаковым языком, но те, кто не имеет такого опыта, сталкиваются с значительными трудностями. Распознавание и генерация знаков являются основными методами общения между слышащими и людьми с ограниченным слухом. Изучение генерации знаков языка в значительной мере остается недостаточно развитом по сравнению с распознаванием. Актуальной является задача генерировать высококачественные изображения знаков языка для повышения эффективности общения.
## Метод
Мы развиваем новую модель, основанную на Варианте Генерирующей Адверсной Сети (GAN), которая объединяет лучшие качества двух моделей: Progressive Growing of Generative Adversarial Network (ProGAN) и Self-Attention Generative Adversarial Network (SAGAN). ProGAN известен своей способностью генерировать высококачественные изображения, в то время как SAGAN известен способностью генерировать изображения с богатыми деталями на средних разрешениях. Наша модель сочетает в себе эти достоинства, достигая высокого разрешения и высокого качества. Мы также развиваем модифицированную антенно-ориентированную модель, которая улучшает процесс генерирования изображений, ориентируясь на класс-условие. Данные для обучения модели собираются с помощью специальной системы сбора данных, состоящей из 100 участников, позволяющей получить качественные изображения знаков языка.
## Результаты
Мы проводим эксперименты для оценки качества генерируемых изображений с помощью Inception Score (IS) и Fr\'echet Inception Distance (FID). Результаты показывают, что наша модель превосходит ProGAN по IS на 3.2 и по FID на 30.12. Это свидетельствует о высокой качественности изображений, генерируемых нашей моделью. Также мы разработали большую выборку данных, содержащую изображения знаков языка индийского языка, включая буквы, цифры и 129 слов. Эта выборка представляет собой ресурс для развития исследований в области генерации знаков языка.
## Значимость
Наша работа имеет значительное значение для общения между слышащими и людьми с ограниченным слухом, а также для развития искусственного интеллекта в области знаковых языков. Мы предоставляем новую модель, которая превосходит существующие решения по качеству и разрешению. Наша модель имеет потенциал для широкого применения в области обучения знаковому языку, видеоперевода и синтеза речи. Это может способствовать более устойчивому и эффективному общению между разными социальными г
Abstract
Sign language, which contains hand movements, facial expressions and bodily
gestures, is a significant medium for communicating with hard-of-hearing
people. A well-trained sign language community communicates easily, but those
who don't know sign language face significant challenges. Recognition and
generation are basic communication methods between hearing and hard-of-hearing
individuals. Despite progress in recognition, sign language generation still
needs to be explored. The Progressive Growing of Generative Adversarial Network
(ProGAN) excels at producing high-quality images, while the Self-Attention
Generative Adversarial Network (SAGAN) generates feature-rich images at medium
resolutions. Balancing resolution and detail is crucial for sign language image
generation. We are developing a Generative Adversarial Network (GAN) variant
that combines both models to generate feature-rich, high-resolution, and
class-conditional sign language images. Our modified Attention-based model
generates high-quality images of Indian Sign Language letters, numbers, and
words, outperforming the traditional ProGAN in Inception Score (IS) and
Fr\'echet Inception Distance (FID), with improvements of 3.2 and 30.12,
respectively. Additionally, we are publishing a large dataset incorporating
high-quality images of Indian Sign Language alphabets, numbers, and 129 words.
Ссылки и действия
Дополнительные ресурсы: