SLRTP2025 Sign Language Production Challenge: Methodology, Results, and Future Work

2508.06951v1 cs.CV, eess.IV, eess.SP 2025-08-13

Авторы:

Harry Walsh, Ed Fish, Ozge Mercanoglu Sincan, Mohamed Ilyes Lakhal, Richard Bowden, Neil Fox, Bencie Woll, Kepeng Wu, Zecheng Li, Weichao Zhao, Haodong Wang, Wengang Zhou, Houqiang Li, Shengeng Tang, Jiayi He, Xu Wang, Ruobei Zhang, Yaxiong Wang, Lechao Cheng, Meryem Tasyurek, Tugce Kiziltepe, Hacer Yalim Keles

Резюме на русском

## Контекст Задача генерирования жестов знаковых языков (Sign Language Production, SLP) заключается в конвертации речи в видео с жестовыми выражениями. Несмотря на недавние прогрессы, особенно с внедрением глубокого обучения, существуют проблемы, такие как несогласованные методы оценки и отсутствие стандартных метрик для SLP. Это существенно сковывает возможности сравнения различных подходов и сводит к минимуму возможность прогресса в этой области. Мы предлагаем первую Sign Language Production Challenge, проведенную в рамках третьей SLRTP Workshop на CVPR 2025. Главная цель этого соревнования — оценить архитектуры, конвертирующие речевые запросы в последовательности скелетных поз, известные как Text-to-Pose (T2P) перевод, с использованием различных метрик. Мы используем RWTH-PHOENIX-Weather-2014T, базу данных для знакового языка Немецкой Дезартерспроагс (DGS) с тематикой погодных прогнозов. Дополнительно, мы создали пользовательский тестовый набор из похожих данных дискурса. Это соревнование привлекло 33 участников, которые представили 231 моделей. Лидирующая команда достигла BLEU-1 значения 31.40 и DTW-MJE 0.0574, используя рамку на основе восстановления и предварительно обученную модель языка. В рамках этого соревнования мы выпустили стандартизированную систему оценки, включающую высококачественные скелетные ключевые точки, позволяющие создать надежный бенчмарк для дальнейших исследований в этой области. ## Метод Разработанная методология состояла из двух основных компонентов: универсальной системы оценки и соревновательного фреймворка. Для оценки входных запросов в виде речи и выходных данных в виде скелетных поз, мы предлагаем стандартизированную сеть, основанную на выделении скелетных ключевых точек. Эта система обеспечивает согласованность и последовательность в сравнении различных моделей. Главный соревновательный фреймворк включал в себя три основных задачи: оценка визуализации жестов, временной динамики и точности трансляции. Мы применяли RWTH-PHOENIX-Weather-2014T в качестве данных тренировки и тестовых наборов, а также создали пользовательский тестовый набор для повышения уровня сложности и реалистичности. Участники были поощрены для разработки моделей, ориентированных на жесты, естественность и точность в генерации знакового языка. ## Результаты За счет участия 33 команд, было представлено 231 моделей, прошедших этапы стандартизированной оценки. Лидирующая команда показала BLEU-1 оценку 31.40 и DTW-MJE 0.0574, используя сочетание ретриев-базисной модели и предварительно обученной модели языка. Б

Abstract

Sign Language Production (SLP) is the task of generating sign language video from spoken language inputs. The field has seen a range of innovations over the last few years, with the introduction of deep learning-based approaches providing significant improvements in the realism and naturalness of generated outputs. However, the lack of standardized evaluation metrics for SLP approaches hampers meaningful comparisons across different systems. To address this, we introduce the first Sign Language Production Challenge, held as part of the third SLRTP Workshop at CVPR 2025. The competition's aims are to evaluate architectures that translate from spoken language sentences to a sequence of skeleton poses, known as Text-to-Pose (T2P) translation, over a range of metrics. For our evaluation data, we use the RWTH-PHOENIX-Weather-2014T dataset, a German Sign Language - Deutsche Gebardensprache (DGS) weather broadcast dataset. In addition, we curate a custom hidden test set from a similar domain of discourse. This paper presents the challenge design and the winning methodologies. The challenge attracted 33 participants who submitted 231 solutions, with the top-performing team achieving BLEU-1 scores of 31.40 and DTW-MJE of 0.0574. The winning approach utilized a retrieval-based framework and a pre-trained language model. As part of the workshop, we release a standardized evaluation network, including high-quality skeleton extraction-based keypoints establishing a consistent baseline for the SLP field, which will enable future researchers to compare their work against a broader range of methods.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SLRTP2025 Sign Language Production Challenge: Methodology, Results, and Future Work

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

SplineSplat: 3D Ray Tracing for Higher-Quality Tomography

WaveletGaussian: Wavelet-domain Diffusion for Sparse-view 3D Gaussian Object Rec...

Навигация