Phonological Representation Learning for Isolated Signs Improves Out-of-Vocabulary Generalization
2509.04745v1
cs.CL, cs.CV
2025-09-09
Авторы:
Lee Kezar, Zed Sehyr, Jesse Thomason
Резюме на русском
#### Контекст
Знаковый язык является важной формой мышления и общения, особенно для людей с нарушениями слуха. Несмотря на развитие технологий, существуют значительные проблемы с обработкой и распознаванием знаков. Одной из основных проблем является нехватка данных, представляющих все возможные знаки, что приводит к недостаточной общезначимости моделей. Это способствует неэффективности моделей при распознавании новых или редко встречающихся знаков. Целью данного исследования является создание модели, улучшающей общезначимость и обнаружение знаков, при этом используя языковые признаки для повышения точности и универсальности.
#### Метод
Методология исследования основывается на использовании векторной квантования для обучения дискретных токенов, которые могут представлять знаки. Архитектура модели включает в себя векторный автокодировщик с дискретными токенами, в котором включены два ключевых подхода: **Parameter Disentanglement** и **Phonological Semi-Supervision**.
- **Parameter Disentanglement** представляет собой архитектурный подход, разделяющий языковые признаки в модели, чтобы избежать спуфинга корреляций.
- **Phonological Semi-Supervision** является техникой регуляризации, использующей знаковый контекст для улучшения языковой модели.
Эти подходы были интегрированы в модель для улучшения обучения и обнаружения знаков, а также для повышения качества реконструкции неизвестных знаков.
#### Результаты
Исследование проводилось на наборе данных знаков, где продемонстрировано, что использование предложенной модели приводит к значительным повышениям качества распознавания и реконструкции знаков. Были проведены эксперименты, сравнивавшие результаты с контрольной моделью, не использующей предложенные языковые признаки. Результаты показали, что модель с **Parameter Disentanglement** и **Phonological Semi-Supervision** обеспечивает более высокую точность распознавания знаков и высокую качественную реконструкцию неизвестных знаков. Это демонстрирует, что использование языковых признаков позволяет улучшить общезначимость и эффективность распознавания знаков.
#### Значимость
Результаты имеют применение в различных областях, где требуется улучшить обработку и распознавание знаков, в том числе в системах распознавания знаков для взаимодействия с людьми-синологами, в создании систем интерактивного обучения знаковому языку, и в области доступности для людей с нарушениями слуха. Модель, описанная в статье, обеспечивает более точное и универсальное распознавание знаков, что может способствовать созданию более эффективных инструментов для общения. Дальнейшие исследования могут быть направлены на расширение модели для обработки знако
Abstract
Sign language datasets are often not representative in terms of vocabulary,
underscoring the need for models that generalize to unseen signs. Vector
quantization is a promising approach for learning discrete, token-like
representations, but it has not been evaluated whether the learned units
capture spurious correlations that hinder out-of-vocabulary performance. This
work investigates two phonological inductive biases: Parameter Disentanglement,
an architectural bias, and Phonological Semi-Supervision, a regularization
technique, to improve isolated sign recognition of known signs and
reconstruction quality of unseen signs with a vector-quantized autoencoder. The
primary finding is that the learned representations from the proposed model are
more effective for one-shot reconstruction of unseen signs and more
discriminative for sign identification compared to a controlled baseline. This
work provides a quantitative analysis of how explicit, linguistically-motivated
biases can improve the generalization of learned representations of sign
language.
Ссылки и действия
Дополнительные ресурсы: