Continuous Bangla Sign Language Translation: Mitigating the Expense of Gloss Annotation with the Assistance of Graph

2508.10687v1 cs.CL, cs.AI 2025-08-16
Авторы:

Safaeid Hossain Arib, Rabeya Akter, Sejuti Rahman

Резюме на русском

#### Контекст Миллионы людей по всему миру страдают от дефицита слуха и слуховой имперантности. Знакровая речь является богатой и уникальной формой коммуникации для дефицитных слуха. Однако в обществах, ориентированных на говорение, знаковая речь часто недооценивается, что приводит к коммуникативным барьерам и социальному изоляции. Наша работа, "Continuous Bangla Sign Language Translation: Mitigating the Expense of Gloss Annotation with the Assistance of Graph", нацелена на уменьшение затрат на глоссальную аннотацию путем разработки эффективной методики перевода знаковой речи. Мы интегрировали графовые методы с архитектурой transformer, что позволило достичь новых результатов в области знакового перевода. #### Метод Мы предлагаем интегрированный подход, который сочетает графовые архитектуры с transformer-архитектурой. Нашу архитектуру, названную STGCN-LSTM, мы применяем к знаковому переводу с комбинацией нескольких функций и разных стратегий фуссирования. Модель обучается на широком наборе данных, включая RWTH-PHOENIX-2014T, CSL-Daily, How2Sign и BornilDB v1.0, чтобы обеспечить широкий спектр знаковых сообщений. Модель позволяет обрабатывать знаковые словари без глоссы, что упрощает процесс перевода и улучшает его точность и скорость. #### Результаты Мы проводили эксперименты на нескольких датасетах, включая RWTH-PHOENIX-2014T, CSL-Daily, How2Sign и BornilDB v1.0. Метод STGCN-LSTM показал значительные улучшения по сравнению с текущими результатами, в частности, увеличил BLEU-4 счет на 4.01 для RWTH-PHOENIX-2014T, 2.07 для CSL-Daily, и 0.5 для How2Sign. Мы также впервые внедрили бенчмаркинг на датасете BornilDB v1.0, установив новый злам для будущих исследований. Наш подход демонстрирует лучшие результаты по сравнению с существующими методами, показывая перспективу графовых технологий в знаковом переводе. #### Значимость Наша работа имеет значительные применения в области знакового перевода, особенно для тех, кто использует знаковую речь. Мы демонстрируем улучшение точности и скорости перевода без необходимости глоссальных аннотаций. Это уменьшает затраты на обучение модели и делает перевод более доступным для дефицитных слуха. Наши результаты могут быть применены в системах перевода знаковых языков, обучении моделей для знаковых языков, а также в улучшении социальных связей и доступности для дефицитных слуха. #### Выводы Мы добились значительных улучшений в знаковом переводе, используя интегрированный подход со смесью графовых и transformer-архитектур. Наша работа доказывает, что графовые методы могут значительно улучшить точность и эфф

Abstract

Millions of individuals worldwide are affected by deafness and hearing impairment. Sign language serves as a sophisticated means of communication for the deaf and hard of hearing. However, in societies that prioritize spoken languages, sign language often faces underestimation, leading to communication barriers and social exclusion. The Continuous Bangla Sign Language Translation project aims to address this gap by enhancing translation methods. While recent approaches leverage transformer architecture for state-of-the-art results, our method integrates graph-based methods with the transformer architecture. This fusion, combining transformer and STGCN-LSTM architectures, proves more effective in gloss-free translation. Our contributions include architectural fusion, exploring various fusion strategies, and achieving a new state-of-the-art performance on diverse sign language datasets, namely RWTH-PHOENIX-2014T, CSL-Daily, How2Sign, and BornilDB v1.0. Our approach demonstrates superior performance compared to current translation outcomes across all datasets, showcasing notable improvements of BLEU-4 scores of 4.01, 2.07, and 0.5, surpassing those of GASLT, GASLT and slt_how2sign in RWTH-PHOENIX-2014T, CSL-Daily, and How2Sign, respectively. Also, we introduce benchmarking on the BornilDB v1.0 dataset for the first time. Our method sets a benchmark for future research, emphasizing the importance of gloss-free translation to improve communication accessibility for the deaf and hard of hearing.

Ссылки и действия