A Signer-Invariant Conformer and Multi-Scale Fusion Transformer for Continuous Sign Language Recognition
2508.09372v1
cs.CV, cs.AI, cs.IR, cs.LG
2025-08-15
Авторы:
Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Fakhri Karray
Резюме на русском
#### Контекст
Изучение непрерывного распознавания жестов (Continuous Sign Language Recognition, CSLR) играет ключевую роль в оптимизации коммуникации между людьми и системами. Однако существуют значительные проблемы, такие как высокая вариативность между знакопериодами (signer variability) и нехватка универсальности в обработке новых структур предложений. Эти сложности часто приводят к неточностям в распознавании жестов, что снижает эффективность алгоритмов. В этом контексте важно разработать модели, которые удачно справляются с этими проблемами, обеспечивая точность и универсальность в распознавании жестов.
#### Метод
Для решения этих проблем мы предлагаем двухуровневую архитектуру. Алгоритм Signer-Invariant Conformer включает в себя конволюционные слои с многоглавным самоп paayтвом (multi-head self-attention), которые обеспечивают извлечение устойчивых к вариативности знакопериодов представлений из скелетных ключевых точек. Для задачи распознавания неизвестных речевых элементов (Unseen-Sentences, US), мы разработали Multi-Scale Fusion Transformer с двухпутевым шаблоном временного разбора (dual-path temporal encoder), который позволяет лучше понимать динамику жестов и нестандартные грамматические конструкции. Модели тренируются на Pose-86K Pose Dataset и используются для проверки на Isharah-1000 dataset.
#### Результаты
На Isharah-1000 dataset, Signer-Invariant Conformer показал Word Error Rate (WER) в 13.07%, что является существенным улучшением по сравнению с предыдущими результатами (WER 26.6%). Multi-Scale Fusion Transformer достиг WER в 47.78% в задаче распознавания неизвестных слов, превзойдя предыдущие модели. Эти результаты опровергают нашу гипотезу о влиянии настройки моделей на задачи CSLR и показывают, что индивидуальные архитектуры могут значительно улучшить показатели распознавания. Наша работа заняла второе место в задаче US и четвертое в задаче SI в соревновании SignEval 2025.
#### Значимость
Наши разработки имеют широкие применения в области систем улучшенной коммуникации, устранения барьеров для людей с ограниченными возможностями, а также в робототехнике и автоматизации. Модели показали свою эффективность в сложных речевых ситуациях, включая неизвестные слова и новые грамматические структуры. Это придает им преимущество в широком диапазоне задач, включая распознавание жестов и текста в режиме реального времени.
#### Выводы
Наши модели — Signer-Invariant Conformer и Multi-Scale Fusion Transformer — доказали свою эффективность в решении задач CSLR. Они установили новый бенчмарк для существующих моделей и открыли новые пути для будущих исследований в области распознавания жестов и улучшения коммуникационных систем. Для дальнейших
Abstract
Continuous Sign Language Recognition (CSLR) faces multiple challenges,
including significant inter-signer variability and poor generalization to novel
sentence structures. Traditional solutions frequently fail to handle these
issues efficiently. For overcoming these constraints, we propose a
dual-architecture framework. For the Signer-Independent (SI) challenge, we
propose a Signer-Invariant Conformer that combines convolutions with multi-head
self-attention to learn robust, signer-agnostic representations from pose-based
skeletal keypoints. For the Unseen-Sentences (US) task, we designed a
Multi-Scale Fusion Transformer with a novel dual-path temporal encoder that
captures both fine-grained posture dynamics, enabling the model's ability to
comprehend novel grammatical compositions. Experiments on the challenging
Isharah-1000 dataset establish a new standard for both CSLR benchmarks. The
proposed conformer architecture achieves a Word Error Rate (WER) of 13.07% on
the SI challenge, a reduction of 13.53% from the state-of-the-art. On the US
task, the transformer model scores a WER of 47.78%, surpassing previous work.
In the SignEval 2025 CSLR challenge, our team placed 2nd in the US task and 4th
in the SI task, demonstrating the performance of these models. The findings
validate our key hypothesis: that developing task-specific networks designed
for the particular challenges of CSLR leads to considerable performance
improvements and establishes a new baseline for further research. The source
code is available at: https://github.com/rezwanh001/MSLR-Pose86K-CSLR-Isharah.