Text2Sign Diffusion: A Generative Approach for Gloss-Free Sign Language Production
2509.10845v1
cs.CL, cs.MM
2025-09-17
Авторы:
Liqian Feng, Lintao Wang, Kun Hu, Dehui Kong, Zhiyong Wang
Резюме на русском
## Контекст
Sign language production (SLP) является ключевым вопросом в области интеллектуальных технологий для продвижения цифровой инклюзии среди людей со слуховыми импаираментами. Основной идеей этой области является перевод речевых фраз в последовательность поз-фреймов, характерных для конкретной знаковой речи. Несмотря на прогресс в этой области, существующие подходы во многом ограничиваются требованием к посредничеству через **gloss** — символическую репрезентацию знаковых слов и фраз. Эта зависимость от gloss не только усложняет процесс создания новых текстов, но и существенно ограничивает гибкость и общезначимость систем SLP. Наше исследование направлено на решение этой проблемы, предлагая новую генерирующую модель **Text2Sign Diffusion**, которая не требует предварительной подготовки gloss-анотаций.
## Метод
Для реализации Text2Sign Diffusion мы предлагаем новую архитектуру, основанную на **diffusion-based generative models**, которая объединяет навыки генерирования последовательностей с использованием **noisy latent sign codes** и текстовых сигналов на входе. Модель не использует синтаксические или семантические представления gloss, а вместо этого оперирует непосредственно с комбинацией звуков и лингвистических моделей. Особенностью является **cross-modal signing aligner**: модуль, учится устанавливать совместную представление звуковых и текстовых сигналов в единой сигнальной модели. Это позволяет обеспечить контекстуюльную аккуратность в генерации и избавиться от необходимости gloss-анотаций в подготовительной стадии. Для улучшения степени точности и выразительности используется **iterative denoising process**, уменьшающий потенциальные ошибки в процессе генерации.
## Результаты
Мы проверили эффективность Text2Sign Diffusion на двух крупных датасетах: **PHOENIX14T** и **How2Sign**. На PHOENIX14T модель показала **state-of-the-art BLEU**-оценки, которые превосходят традиционные подходы, основанные на gloss. Также мы заметили существенное улучшение в смысловой аккуратности по сравнению с другими генерирующими системами. Дополнительные эксперименты показали, что модель также работает эффективно в условиях **low-resource scenarios**, где использование gloss-ресурсов ограничено или отсутствует. Это демонстрирует гибкость и универсальность Text2Sign Diffusion в решении проблемы генерации знаковой речи для разных языков и дополнительных контекстов.
## Значимость
Наш подход может быть применен как в области цифровой инклюзии, так и в технологиях обучения и трансляции для знаковых речи. Это открывает новые возможности для создания коммуникативных моделей, не зависящих от gloss-окраски, что в свою очередь поощряет более естественное взаимодейст
Abstract
Sign language production (SLP) aims to translate spoken language sentences
into a sequence of pose frames in a sign language, bridging the communication
gap and promoting digital inclusion for deaf and hard-of-hearing communities.
Existing methods typically rely on gloss, a symbolic representation of sign
language words or phrases that serves as an intermediate step in SLP. This
limits the flexibility and generalization of SLP, as gloss annotations are
often unavailable and language-specific. Therefore, we present a novel
diffusion-based generative approach - Text2Sign Diffusion (Text2SignDiff) for
gloss-free SLP. Specifically, a gloss-free latent diffusion model is proposed
to generate sign language sequences from noisy latent sign codes and spoken
text jointly, reducing the potential error accumulation through a
non-autoregressive iterative denoising process. We also design a cross-modal
signing aligner that learns a shared latent space to bridge visual and textual
content in sign and spoken languages. This alignment supports the conditioned
diffusion-based process, enabling more accurate and contextually relevant sign
language generation without gloss. Extensive experiments on the commonly used
PHOENIX14T and How2Sign datasets demonstrate the effectiveness of our method,
achieving the state-of-the-art performance.