Skeleton-based sign language recognition using a dual-stream spatio-temporal dynamic graph convolutional network
2509.08661v1
cs.CV, cs.AI, I.2.m; I.2.0
2025-09-11
Авторы:
Liangjin Liu, Haoyang Zheng, Pei Zhou
Резюме на русском
#### Контекст
Изолированное распознавание жестов жестовой речи (Isolated Sign Language Recognition, ISLR) сталкивается с тем, что многие жесты, несмотря на схожую морфологию, означают разные понятия. Эта проблема возникает из-за сложного взаимодействия между формой руки и траекторией движения. Существующие методы, часто основывающиеся на одной специфической системе координат, сталкиваются с трудностями при разрешении геометрической неоднозначности таких ситуаций. Данная работа предлагает DSLNet — двойной специализированный открытый архитектурный подход, который позволяет лучше разделить и моделировать различные аспекты жестов, включая морфологическую структуру и траекторию движения.
#### Метод
Основная идея DSLNet заключается в использовании двойной системы координат — ориентированных относительно локтевой или лицевой точки — для детального анализа жестов. Локтевая система координат используется для точного распознавания рукоположения, а лицевая — для моделирования траектории движения. Для каждой системы координат разработаны специализированные сети: топологическая сеть для анализа рукоположения и Finsler-геометрическая сеть для моделирования траектории. Эти две сети объединяются через механизм геометрического порядка, основанного на принципах оптимального транспорта. Это позволяет DSLNet использовать сильные стороны каждой системы координат в сочетании для точного распознавания жестов.
#### Результаты
Проведенные эксперименты показали, что DSLNet достигает высокой точности распознавания жестов на различных датасетах. На WLASL-100, WLASL-300 и LSA64 точность составила 93,70%, 89,97% и 99,79% соответственно. Этот результат был достигнут при значительно меньшем числе параметров, чем у конкурентных моделей. Это свидетельствует о высокой эффективности DSLNet в сравнении с другими методами распознавания жестов.
#### Значимость
Предложенный подход имеет широкую область применения в системах роботов, видеомониторинге и реализации систем для поддержки инвалидов. Одним из преимуществ является высокая точность распознавания даже при подвижности и морфологической схожести жестов. Будущие исследования станут сфокусированы на расширении DSLNet для работы с более сложными датасетами и расширении его задач, включая распознавание жестов в открытом мире.
#### Выводы
Разработанная DSLNet достигла совершенно нового уровня точности в распознавании жестов, которое не было достигнуто ранее. Она разделяет жесты по морфологической и динамической структуре, используя две специализированные сети. Данный подход открывает новые во
Abstract
Isolated Sign Language Recognition (ISLR) is challenged by gestures that are
morphologically similar yet semantically distinct, a problem rooted in the
complex interplay between hand shape and motion trajectory. Existing methods,
often relying on a single reference frame, struggle to resolve this geometric
ambiguity. This paper introduces Dual-SignLanguageNet (DSLNet), a
dual-reference, dual-stream architecture that decouples and models gesture
morphology and trajectory in separate, complementary coordinate systems. Our
approach utilizes a wrist-centric frame for view-invariant shape analysis and a
facial-centric frame for context-aware trajectory modeling. These streams are
processed by specialized networks-a topology-aware graph convolution for shape
and a Finsler geometry-based encoder for trajectory-and are integrated via a
geometry-driven optimal transport fusion mechanism. DSLNet sets a new
state-of-the-art, achieving 93.70%, 89.97% and 99.79% accuracy on the
challenging WLASL-100, WLASL-300 and LSA64 datasets, respectively, with
significantly fewer parameters than competing models.