Towards Skeletal and Signer Noise Reduction in Sign Language Production via Quaternion-Based Pose Encoding and Contrastive Learning

2508.14574v1 cs.CL, cs.LG 2025-08-22
Авторы:

Guilhem Fauré, Mostafa Sadeghi, Sam Bigeard, Slim Ouni

Резюме на русском

#### Контекст Нейронные модели для производства жестов жестовой речи (Sign Language Production, SLP) сталкиваются со сложностью высокой внутриклассовой переменности. Это делается очевидным в голосовых системах, где различия в форме и стиле кинематических жестов сигнатиков (signers) могут привести к заметному снижению точности. Для улучшения этих моделей, проект предлагает инновационные решения для снижения шумов, связанных с сигнатком (signer noise) и скелетной морфологией (skeletal structure). Эти усовершенствования адресуют важные ограничения в существующих моделях, чтобы обеспечить более точное и понятное значение жестов. #### Метод В этом исследовании предлагается две новые модели, которые объединяют более точные техники позыва и семантического ландшафта. Во-первых, позыва кодируются в пространстве кватернионов (quaternion space) с использованием геодезического потери (geodesic loss), чтобы улучшить точность поворотов и кинематических движений. Во-вторых, контрастивное обучение (contrastive learning) применяется для структурирования декодерных векторов по значимости семантики, используя обобщенные критерии (gloss overlap) или статистические модели семантического схожести (SBERT-based sentence similarity). Эти улучшения внедрены в архитектуру Progressive Transformers (PT), чтобы улучшить обработку жестов и сократить шумные эффекты. #### Результаты Эксперименты проводились на датасете Phoenix14T, который включает более 14 часов звуковых и видеозаписей жестов. Модель с контрастивным обучением показала 16% улучшение в правильной определенности ключевых точек (Probability of Correct Keypoint, PCK). Добавление кватернионов в качестве позывов привело к снижению среднего углового ошибки костей (Mean Bone Angle Error) на 6%. Эти результаты указывают на позитивное влияние моделей, которые интегрируют моделирование скелета и семантическое учитывание в обучение преобраторов (Transformers) для производства жестов жестовой речи. #### Значимость Предложенные улучшения имеют широкие применения в области обучения машин и робототехники, где естественное взаимодействие человека-машина требует точного интерпретирования жестов. Модели показали своё потенциальное влияние на улучшение жестовых систем, активно используемых в системах управления, специальных технологиях и интерактивных приложениях. Эти достижения открывают новые возможности для улучшения понимания и взаимодействия между человеком и машиной. #### Выводы В результате исследования был показан положительный эффект интеграции кватернионов в модели производства жестов жестовой речи. Также была продемонстрирована эффективность семантических контрастивных целей в уменьшении шума. Будущие ис

Abstract

One of the main challenges in neural sign language production (SLP) lies in the high intra-class variability of signs, arising from signer morphology and stylistic variety in the training data. To improve robustness to such variations, we propose two enhancements to the standard Progressive Transformers (PT) architecture (Saunders et al., 2020). First, we encode poses using bone rotations in quaternion space and train with a geodesic loss to improve the accuracy and clarity of angular joint movements. Second, we introduce a contrastive loss to structure decoder embeddings by semantic similarity, using either gloss overlap or SBERT-based sentence similarity, aiming to filter out anatomical and stylistic features that do not convey relevant semantic information. On the Phoenix14T dataset, the contrastive loss alone yields a 16% improvement in Probability of Correct Keypoint over the PT baseline. When combined with quaternion-based pose encoding, the model achieves a 6% reduction in Mean Bone Angle Error. These results point to the benefit of incorporating skeletal structure modeling and semantically guided contrastive objectives on sign pose representations into the training of Transformer-based SLP models.

Ссылки и действия