Towards Skeletal and Signer Noise Reduction in Sign Language Production via Quaternion-Based Pose Encoding and Contrastive Learning
2508.14574v1
cs.CL, cs.LG
2025-08-22
Авторы:
Guilhem Fauré, Mostafa Sadeghi, Sam Bigeard, Slim Ouni
Резюме на русском
#### Контекст
Нейронные модели для производства жестов жестовой речи (Sign Language Production, SLP) сталкиваются со сложностью высокой внутриклассовой переменности. Это делается очевидным в голосовых системах, где различия в форме и стиле кинематических жестов сигнатиков (signers) могут привести к заметному снижению точности. Для улучшения этих моделей, проект предлагает инновационные решения для снижения шумов, связанных с сигнатком (signer noise) и скелетной морфологией (skeletal structure). Эти усовершенствования адресуют важные ограничения в существующих моделях, чтобы обеспечить более точное и понятное значение жестов.
#### Метод
В этом исследовании предлагается две новые модели, которые объединяют более точные техники позыва и семантического ландшафта. Во-первых, позыва кодируются в пространстве кватернионов (quaternion space) с использованием геодезического потери (geodesic loss), чтобы улучшить точность поворотов и кинематических движений. Во-вторых, контрастивное обучение (contrastive learning) применяется для структурирования декодерных векторов по значимости семантики, используя обобщенные критерии (gloss overlap) или статистические модели семантического схожести (SBERT-based sentence similarity). Эти улучшения внедрены в архитектуру Progressive Transformers (PT), чтобы улучшить обработку жестов и сократить шумные эффекты.
#### Результаты
Эксперименты проводились на датасете Phoenix14T, который включает более 14 часов звуковых и видеозаписей жестов. Модель с контрастивным обучением показала 16% улучшение в правильной определенности ключевых точек (Probability of Correct Keypoint, PCK). Добавление кватернионов в качестве позывов привело к снижению среднего углового ошибки костей (Mean Bone Angle Error) на 6%. Эти результаты указывают на позитивное влияние моделей, которые интегрируют моделирование скелета и семантическое учитывание в обучение преобраторов (Transformers) для производства жестов жестовой речи.
#### Значимость
Предложенные улучшения имеют широкие применения в области обучения машин и робототехники, где естественное взаимодействие человека-машина требует точного интерпретирования жестов. Модели показали своё потенциальное влияние на улучшение жестовых систем, активно используемых в системах управления, специальных технологиях и интерактивных приложениях. Эти достижения открывают новые возможности для улучшения понимания и взаимодействия между человеком и машиной.
#### Выводы
В результате исследования был показан положительный эффект интеграции кватернионов в модели производства жестов жестовой речи. Также была продемонстрирована эффективность семантических контрастивных целей в уменьшении шума. Будущие ис
Abstract
One of the main challenges in neural sign language production (SLP) lies in
the high intra-class variability of signs, arising from signer morphology and
stylistic variety in the training data. To improve robustness to such
variations, we propose two enhancements to the standard Progressive
Transformers (PT) architecture (Saunders et al., 2020). First, we encode poses
using bone rotations in quaternion space and train with a geodesic loss to
improve the accuracy and clarity of angular joint movements. Second, we
introduce a contrastive loss to structure decoder embeddings by semantic
similarity, using either gloss overlap or SBERT-based sentence similarity,
aiming to filter out anatomical and stylistic features that do not convey
relevant semantic information. On the Phoenix14T dataset, the contrastive loss
alone yields a 16% improvement in Probability of Correct Keypoint over the PT
baseline. When combined with quaternion-based pose encoding, the model achieves
a 6% reduction in Mean Bone Angle Error. These results point to the benefit of
incorporating skeletal structure modeling and semantically guided contrastive
objectives on sign pose representations into the training of Transformer-based
SLP models.
Ссылки и действия
Дополнительные ресурсы: