Text2Sign Diffusion: A Generative Approach for Gloss-Free Sign Language Production

2509.10845v1 cs.CL, cs.MM 2025-09-17
Авторы:

Liqian Feng, Lintao Wang, Kun Hu, Dehui Kong, Zhiyong Wang

Резюме на русском

## Контекст Sign language production (SLP) является ключевым вопросом в области интеллектуальных технологий для продвижения цифровой инклюзии среди людей со слуховыми импаираментами. Основной идеей этой области является перевод речевых фраз в последовательность поз-фреймов, характерных для конкретной знаковой речи. Несмотря на прогресс в этой области, существующие подходы во многом ограничиваются требованием к посредничеству через **gloss** — символическую репрезентацию знаковых слов и фраз. Эта зависимость от gloss не только усложняет процесс создания новых текстов, но и существенно ограничивает гибкость и общезначимость систем SLP. Наше исследование направлено на решение этой проблемы, предлагая новую генерирующую модель **Text2Sign Diffusion**, которая не требует предварительной подготовки gloss-анотаций. ## Метод Для реализации Text2Sign Diffusion мы предлагаем новую архитектуру, основанную на **diffusion-based generative models**, которая объединяет навыки генерирования последовательностей с использованием **noisy latent sign codes** и текстовых сигналов на входе. Модель не использует синтаксические или семантические представления gloss, а вместо этого оперирует непосредственно с комбинацией звуков и лингвистических моделей. Особенностью является **cross-modal signing aligner**: модуль, учится устанавливать совместную представление звуковых и текстовых сигналов в единой сигнальной модели. Это позволяет обеспечить контекстуюльную аккуратность в генерации и избавиться от необходимости gloss-анотаций в подготовительной стадии. Для улучшения степени точности и выразительности используется **iterative denoising process**, уменьшающий потенциальные ошибки в процессе генерации. ## Результаты Мы проверили эффективность Text2Sign Diffusion на двух крупных датасетах: **PHOENIX14T** и **How2Sign**. На PHOENIX14T модель показала **state-of-the-art BLEU**-оценки, которые превосходят традиционные подходы, основанные на gloss. Также мы заметили существенное улучшение в смысловой аккуратности по сравнению с другими генерирующими системами. Дополнительные эксперименты показали, что модель также работает эффективно в условиях **low-resource scenarios**, где использование gloss-ресурсов ограничено или отсутствует. Это демонстрирует гибкость и универсальность Text2Sign Diffusion в решении проблемы генерации знаковой речи для разных языков и дополнительных контекстов. ## Значимость Наш подход может быть применен как в области цифровой инклюзии, так и в технологиях обучения и трансляции для знаковых речи. Это открывает новые возможности для создания коммуникативных моделей, не зависящих от gloss-окраски, что в свою очередь поощряет более естественное взаимодейст

Abstract

Sign language production (SLP) aims to translate spoken language sentences into a sequence of pose frames in a sign language, bridging the communication gap and promoting digital inclusion for deaf and hard-of-hearing communities. Existing methods typically rely on gloss, a symbolic representation of sign language words or phrases that serves as an intermediate step in SLP. This limits the flexibility and generalization of SLP, as gloss annotations are often unavailable and language-specific. Therefore, we present a novel diffusion-based generative approach - Text2Sign Diffusion (Text2SignDiff) for gloss-free SLP. Specifically, a gloss-free latent diffusion model is proposed to generate sign language sequences from noisy latent sign codes and spoken text jointly, reducing the potential error accumulation through a non-autoregressive iterative denoising process. We also design a cross-modal signing aligner that learns a shared latent space to bridge visual and textual content in sign and spoken languages. This alignment supports the conditioned diffusion-based process, enabling more accurate and contextually relevant sign language generation without gloss. Extensive experiments on the commonly used PHOENIX14T and How2Sign datasets demonstrate the effectiveness of our method, achieving the state-of-the-art performance.

Ссылки и действия

Связанные статьи

DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Und...

## Контекст Данная работа посвящена развитию DRISHTIKON — первого в своём роде многомодального и многоязыкового бенчмарк...

2025-09-25

RealBench: A Chinese Multi-image Understanding Benchmark Close to Real-world Sce...

## Контекст В последние годы стало ясно, что понимание множества изображений (multi-image understanding) является кллюч...

2025-09-24

Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding

## Контекст Sarcasm detection является сложной задачей в области natural language understanding (NLU), так как sarcasm ч...

2025-09-23

Benchmarking and Improving LVLMs on Event Extraction from Multimedia Documents

## Контекст Современный мир охвачен всемиконный потоком мультимедийной информации. Это создает необходимость в развитии...

2025-09-18