Phonological Representation Learning for Isolated Signs Improves Out-of-Vocabulary Generalization

2509.04745v1 cs.CL, cs.CV 2025-09-09

Авторы:

Lee Kezar, Zed Sehyr, Jesse Thomason

Резюме на русском

#### Контекст Знаковый язык является важной формой мышления и общения, особенно для людей с нарушениями слуха. Несмотря на развитие технологий, существуют значительные проблемы с обработкой и распознаванием знаков. Одной из основных проблем является нехватка данных, представляющих все возможные знаки, что приводит к недостаточной общезначимости моделей. Это способствует неэффективности моделей при распознавании новых или редко встречающихся знаков. Целью данного исследования является создание модели, улучшающей общезначимость и обнаружение знаков, при этом используя языковые признаки для повышения точности и универсальности. #### Метод Методология исследования основывается на использовании векторной квантования для обучения дискретных токенов, которые могут представлять знаки. Архитектура модели включает в себя векторный автокодировщик с дискретными токенами, в котором включены два ключевых подхода: **Parameter Disentanglement** и **Phonological Semi-Supervision**. - **Parameter Disentanglement** представляет собой архитектурный подход, разделяющий языковые признаки в модели, чтобы избежать спуфинга корреляций. - **Phonological Semi-Supervision** является техникой регуляризации, использующей знаковый контекст для улучшения языковой модели. Эти подходы были интегрированы в модель для улучшения обучения и обнаружения знаков, а также для повышения качества реконструкции неизвестных знаков. #### Результаты Исследование проводилось на наборе данных знаков, где продемонстрировано, что использование предложенной модели приводит к значительным повышениям качества распознавания и реконструкции знаков. Были проведены эксперименты, сравнивавшие результаты с контрольной моделью, не использующей предложенные языковые признаки. Результаты показали, что модель с **Parameter Disentanglement** и **Phonological Semi-Supervision** обеспечивает более высокую точность распознавания знаков и высокую качественную реконструкцию неизвестных знаков. Это демонстрирует, что использование языковых признаков позволяет улучшить общезначимость и эффективность распознавания знаков. #### Значимость Результаты имеют применение в различных областях, где требуется улучшить обработку и распознавание знаков, в том числе в системах распознавания знаков для взаимодействия с людьми-синологами, в создании систем интерактивного обучения знаковому языку, и в области доступности для людей с нарушениями слуха. Модель, описанная в статье, обеспечивает более точное и универсальное распознавание знаков, что может способствовать созданию более эффективных инструментов для общения. Дальнейшие исследования могут быть направлены на расширение модели для обработки знако

Abstract

Sign language datasets are often not representative in terms of vocabulary, underscoring the need for models that generalize to unseen signs. Vector quantization is a promising approach for learning discrete, token-like representations, but it has not been evaluated whether the learned units capture spurious correlations that hinder out-of-vocabulary performance. This work investigates two phonological inductive biases: Parameter Disentanglement, an architectural bias, and Phonological Semi-Supervision, a regularization technique, to improve isolated sign recognition of known signs and reconstruction quality of unseen signs with a vector-quantized autoencoder. The primary finding is that the learned representations from the proposed model are more effective for one-shot reconstruction of unseen signs and more discriminative for sign identification compared to a controlled baseline. This work provides a quantitative analysis of how explicit, linguistically-motivated biases can improve the generalization of learned representations of sign language.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Phonological Representation Learning for Isolated Signs Improves Out-of-Vocabulary Generalization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Visual Puns from Idioms: An Iterative LLM-T2IM-MLLM Framework

Optimizing Multimodal Language Models through Attention-based Interpretability

Bangla Sign Language Translation: Dataset Creation Challenges, Benchmarking and ...

Do Vision-Language Models Understand Visual Persuasiveness?

Arctic-Extract Technical Report

Навигация