Continuous Bangla Sign Language Translation: Mitigating the Expense of Gloss Annotation with the Assistance of Graph
2508.10687v1
cs.CL, cs.AI
2025-08-16
Авторы:
Safaeid Hossain Arib, Rabeya Akter, Sejuti Rahman
Резюме на русском
#### Контекст
Миллионы людей по всему миру страдают от дефицита слуха и слуховой имперантности. Знакровая речь является богатой и уникальной формой коммуникации для дефицитных слуха. Однако в обществах, ориентированных на говорение, знаковая речь часто недооценивается, что приводит к коммуникативным барьерам и социальному изоляции. Наша работа, "Continuous Bangla Sign Language Translation: Mitigating the Expense of Gloss Annotation with the Assistance of Graph", нацелена на уменьшение затрат на глоссальную аннотацию путем разработки эффективной методики перевода знаковой речи. Мы интегрировали графовые методы с архитектурой transformer, что позволило достичь новых результатов в области знакового перевода.
#### Метод
Мы предлагаем интегрированный подход, который сочетает графовые архитектуры с transformer-архитектурой. Нашу архитектуру, названную STGCN-LSTM, мы применяем к знаковому переводу с комбинацией нескольких функций и разных стратегий фуссирования. Модель обучается на широком наборе данных, включая RWTH-PHOENIX-2014T, CSL-Daily, How2Sign и BornilDB v1.0, чтобы обеспечить широкий спектр знаковых сообщений. Модель позволяет обрабатывать знаковые словари без глоссы, что упрощает процесс перевода и улучшает его точность и скорость.
#### Результаты
Мы проводили эксперименты на нескольких датасетах, включая RWTH-PHOENIX-2014T, CSL-Daily, How2Sign и BornilDB v1.0. Метод STGCN-LSTM показал значительные улучшения по сравнению с текущими результатами, в частности, увеличил BLEU-4 счет на 4.01 для RWTH-PHOENIX-2014T, 2.07 для CSL-Daily, и 0.5 для How2Sign. Мы также впервые внедрили бенчмаркинг на датасете BornilDB v1.0, установив новый злам для будущих исследований. Наш подход демонстрирует лучшие результаты по сравнению с существующими методами, показывая перспективу графовых технологий в знаковом переводе.
#### Значимость
Наша работа имеет значительные применения в области знакового перевода, особенно для тех, кто использует знаковую речь. Мы демонстрируем улучшение точности и скорости перевода без необходимости глоссальных аннотаций. Это уменьшает затраты на обучение модели и делает перевод более доступным для дефицитных слуха. Наши результаты могут быть применены в системах перевода знаковых языков, обучении моделей для знаковых языков, а также в улучшении социальных связей и доступности для дефицитных слуха.
#### Выводы
Мы добились значительных улучшений в знаковом переводе, используя интегрированный подход со смесью графовых и transformer-архитектур. Наша работа доказывает, что графовые методы могут значительно улучшить точность и эфф
Abstract
Millions of individuals worldwide are affected by deafness and hearing
impairment. Sign language serves as a sophisticated means of communication for
the deaf and hard of hearing. However, in societies that prioritize spoken
languages, sign language often faces underestimation, leading to communication
barriers and social exclusion. The Continuous Bangla Sign Language Translation
project aims to address this gap by enhancing translation methods. While recent
approaches leverage transformer architecture for state-of-the-art results, our
method integrates graph-based methods with the transformer architecture. This
fusion, combining transformer and STGCN-LSTM architectures, proves more
effective in gloss-free translation. Our contributions include architectural
fusion, exploring various fusion strategies, and achieving a new
state-of-the-art performance on diverse sign language datasets, namely
RWTH-PHOENIX-2014T, CSL-Daily, How2Sign, and BornilDB v1.0. Our approach
demonstrates superior performance compared to current translation outcomes
across all datasets, showcasing notable improvements of BLEU-4 scores of 4.01,
2.07, and 0.5, surpassing those of GASLT, GASLT and slt_how2sign in
RWTH-PHOENIX-2014T, CSL-Daily, and How2Sign, respectively. Also, we introduce
benchmarking on the BornilDB v1.0 dataset for the first time. Our method sets a
benchmark for future research, emphasizing the importance of gloss-free
translation to improve communication accessibility for the deaf and hard of
hearing.
Ссылки и действия
Дополнительные ресурсы: