A Signer-Invariant Conformer and Multi-Scale Fusion Transformer for Continuous Sign Language Recognition

2508.09372v1 cs.CV, cs.AI, cs.IR, cs.LG 2025-08-15

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Fakhri Karray

Резюме на русском

#### Контекст Изучение непрерывного распознавания жестов (Continuous Sign Language Recognition, CSLR) играет ключевую роль в оптимизации коммуникации между людьми и системами. Однако существуют значительные проблемы, такие как высокая вариативность между знакопериодами (signer variability) и нехватка универсальности в обработке новых структур предложений. Эти сложности часто приводят к неточностям в распознавании жестов, что снижает эффективность алгоритмов. В этом контексте важно разработать модели, которые удачно справляются с этими проблемами, обеспечивая точность и универсальность в распознавании жестов. #### Метод Для решения этих проблем мы предлагаем двухуровневую архитектуру. Алгоритм Signer-Invariant Conformer включает в себя конволюционные слои с многоглавным самоп paayтвом (multi-head self-attention), которые обеспечивают извлечение устойчивых к вариативности знакопериодов представлений из скелетных ключевых точек. Для задачи распознавания неизвестных речевых элементов (Unseen-Sentences, US), мы разработали Multi-Scale Fusion Transformer с двухпутевым шаблоном временного разбора (dual-path temporal encoder), который позволяет лучше понимать динамику жестов и нестандартные грамматические конструкции. Модели тренируются на Pose-86K Pose Dataset и используются для проверки на Isharah-1000 dataset. #### Результаты На Isharah-1000 dataset, Signer-Invariant Conformer показал Word Error Rate (WER) в 13.07%, что является существенным улучшением по сравнению с предыдущими результатами (WER 26.6%). Multi-Scale Fusion Transformer достиг WER в 47.78% в задаче распознавания неизвестных слов, превзойдя предыдущие модели. Эти результаты опровергают нашу гипотезу о влиянии настройки моделей на задачи CSLR и показывают, что индивидуальные архитектуры могут значительно улучшить показатели распознавания. Наша работа заняла второе место в задаче US и четвертое в задаче SI в соревновании SignEval 2025. #### Значимость Наши разработки имеют широкие применения в области систем улучшенной коммуникации, устранения барьеров для людей с ограниченными возможностями, а также в робототехнике и автоматизации. Модели показали свою эффективность в сложных речевых ситуациях, включая неизвестные слова и новые грамматические структуры. Это придает им преимущество в широком диапазоне задач, включая распознавание жестов и текста в режиме реального времени. #### Выводы Наши модели — Signer-Invariant Conformer и Multi-Scale Fusion Transformer — доказали свою эффективность в решении задач CSLR. Они установили новый бенчмарк для существующих моделей и открыли новые пути для будущих исследований в области распознавания жестов и улучшения коммуникационных систем. Для дальнейших

Abstract

Continuous Sign Language Recognition (CSLR) faces multiple challenges, including significant inter-signer variability and poor generalization to novel sentence structures. Traditional solutions frequently fail to handle these issues efficiently. For overcoming these constraints, we propose a dual-architecture framework. For the Signer-Independent (SI) challenge, we propose a Signer-Invariant Conformer that combines convolutions with multi-head self-attention to learn robust, signer-agnostic representations from pose-based skeletal keypoints. For the Unseen-Sentences (US) task, we designed a Multi-Scale Fusion Transformer with a novel dual-path temporal encoder that captures both fine-grained posture dynamics, enabling the model's ability to comprehend novel grammatical compositions. Experiments on the challenging Isharah-1000 dataset establish a new standard for both CSLR benchmarks. The proposed conformer architecture achieves a Word Error Rate (WER) of 13.07% on the SI challenge, a reduction of 13.53% from the state-of-the-art. On the US task, the transformer model scores a WER of 47.78%, surpassing previous work. In the SignEval 2025 CSLR challenge, our team placed 2nd in the US task and 4th in the SI task, demonstrating the performance of these models. The findings validate our key hypothesis: that developing task-specific networks designed for the particular challenges of CSLR leads to considerable performance improvements and establishes a new baseline for further research. The source code is available at: https://github.com/rezwanh001/MSLR-Pose86K-CSLR-Isharah.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

A Signer-Invariant Conformer and Multi-Scale Fusion Transformer for Continuous Sign Language Recognition

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MOON2.0: Dynamic Modality-balanced Multimodal Representation Learning for E-comm...

Open Multimodal Retrieval-Augmented Factual Image Generation

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Pr...

Навигация