How Does a Deep Neural Network Look at Lexical Stress?

2508.07229v1 cs.CL, cs.LG, cs.SD, eess.AS 2025-08-13

Авторы:

Itai Allouche, Itay Asael, Rotem Rousso, Vered Dassa, Ann Bradlow, Seung-Eun Kim, Matthew Goldrick, Joseph Keshet

Резюме на русском

## Контекст Глубокие нейронные сети (DNN) доказали свою эффективность в обработке языка, особенно в сфере распознавания речи. Однако они часто работают как "черные ящики", при этом возникает вопрос о том, что именно информирует их решения. Это исследование фокусируется на лексической напряженности (stress), которая важна для вербальной интонации и понимания речи. Лексическая напряженность варьируется между словами и внутри слов, влияя на их значение и тонус. Однако существуют недостатки в записях данных для лексической напряженности, так как многие слова отсутствуют в управляемых наборах данных. Данное исследование адресует эти проблемы, используя автоматически сгенерированные наборы данных из речи в реальных условиях. ## Метод Для исследования был создан набор данных из дисиллабных слов в английском языке, с использованием естественных записей речи. Несколько Convolutional Neural Network (CNN) архитектур были обучены классифицировать положение лексической напряженности в словах, основываясь на спектрограммах слов. Были использованы минимальные пары слов с разным положением напряженности (например, протест vs. проТЕСТ). Также, для понимания решений сетей, была применена техника Layerwise Relevance Propagation (LRP). ## Результаты Сети достигли до 92% точности в предсказании положения напряженности. Анализ LRP показал, что сети уделяют большое внимание информации в напряженных слогах, особенно в спектральных свойствах напряженных гласных. Также, они учитывают информацию по всему слову, что позволяет им аккумулировать распределенные признаки напряженности. ## Значимость Результаты имеют практическое значение для области распознавания речи и естественного языка процессинга. Они демонстрируют, что DNN могут извлекать информацию о структуре речи из натуральных данных, что может быть полезно для улучшения технологий распознавания речи. ## Выводы Исследование демонстрирует успех DNN в понимании лексической напряженности, несмотря на недостатки в управляемых данных. Будущие исследования должны сосредоточиться на дальнейшем улучшении интерпретируемости DNN и их применении в реальных ситуациях.

Abstract

Despite their success in speech processing, neural networks often operate as black boxes, prompting the question: what informs their decisions, and how can we interpret them? This work examines this issue in the context of lexical stress. A dataset of English disyllabic words was automatically constructed from read and spontaneous speech. Several Convolutional Neural Network (CNN) architectures were trained to predict stress position from a spectrographic representation of disyllabic words lacking minimal stress pairs (e.g., initial stress WAllet, final stress exTEND), achieving up to 92% accuracy on held-out test data. Layerwise Relevance Propagation (LRP), a technique for CNN interpretability analysis, revealed that predictions for held-out minimal pairs (PROtest vs. proTEST ) were most strongly influenced by information in stressed versus unstressed syllables, particularly the spectral properties of stressed vowels. However, the classifiers also attended to information throughout the word. A feature-specific relevance analysis is proposed, and its results suggest that our best-performing classifier is strongly influenced by the stressed vowel's first and second formants, with some evidence that its pitch and third formant also contribute. These results reveal deep learning's ability to acquire distributed cues to stress from naturally occurring data, extending traditional phonetic work based around highly controlled stimuli.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

How Does a Deep Neural Network Look at Lexical Stress?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Adapting Language Balance in Code-Switching Speech

Bayesian Low-Rank Factorization for Robust Model Adaptation

CarelessWhisper: Turning Whisper into a Causal Streaming Model

Text to Speech System for Meitei Mayek Script

The State Of TTS: A Case Study with Human Fooling Rates

Навигация