How Does a Deep Neural Network Look at Lexical Stress?
2508.07229v1
cs.CL, cs.LG, cs.SD, eess.AS
2025-08-13
Авторы:
Itai Allouche, Itay Asael, Rotem Rousso, Vered Dassa, Ann Bradlow, Seung-Eun Kim, Matthew Goldrick, Joseph Keshet
Резюме на русском
## Контекст
Глубокие нейронные сети (DNN) доказали свою эффективность в обработке языка, особенно в сфере распознавания речи. Однако они часто работают как "черные ящики", при этом возникает вопрос о том, что именно информирует их решения. Это исследование фокусируется на лексической напряженности (stress), которая важна для вербальной интонации и понимания речи. Лексическая напряженность варьируется между словами и внутри слов, влияя на их значение и тонус. Однако существуют недостатки в записях данных для лексической напряженности, так как многие слова отсутствуют в управляемых наборах данных. Данное исследование адресует эти проблемы, используя автоматически сгенерированные наборы данных из речи в реальных условиях.
## Метод
Для исследования был создан набор данных из дисиллабных слов в английском языке, с использованием естественных записей речи. Несколько Convolutional Neural Network (CNN) архитектур были обучены классифицировать положение лексической напряженности в словах, основываясь на спектрограммах слов. Были использованы минимальные пары слов с разным положением напряженности (например, протест vs. проТЕСТ). Также, для понимания решений сетей, была применена техника Layerwise Relevance Propagation (LRP).
## Результаты
Сети достигли до 92% точности в предсказании положения напряженности. Анализ LRP показал, что сети уделяют большое внимание информации в напряженных слогах, особенно в спектральных свойствах напряженных гласных. Также, они учитывают информацию по всему слову, что позволяет им аккумулировать распределенные признаки напряженности.
## Значимость
Результаты имеют практическое значение для области распознавания речи и естественного языка процессинга. Они демонстрируют, что DNN могут извлекать информацию о структуре речи из натуральных данных, что может быть полезно для улучшения технологий распознавания речи.
## Выводы
Исследование демонстрирует успех DNN в понимании лексической напряженности, несмотря на недостатки в управляемых данных. Будущие исследования должны сосредоточиться на дальнейшем улучшении интерпретируемости DNN и их применении в реальных ситуациях.
Abstract
Despite their success in speech processing, neural networks often operate as
black boxes, prompting the question: what informs their decisions, and how can
we interpret them? This work examines this issue in the context of lexical
stress. A dataset of English disyllabic words was automatically constructed
from read and spontaneous speech. Several Convolutional Neural Network (CNN)
architectures were trained to predict stress position from a spectrographic
representation of disyllabic words lacking minimal stress pairs (e.g., initial
stress WAllet, final stress exTEND), achieving up to 92% accuracy on held-out
test data. Layerwise Relevance Propagation (LRP), a technique for CNN
interpretability analysis, revealed that predictions for held-out minimal pairs
(PROtest vs. proTEST ) were most strongly influenced by information in stressed
versus unstressed syllables, particularly the spectral properties of stressed
vowels. However, the classifiers also attended to information throughout the
word. A feature-specific relevance analysis is proposed, and its results
suggest that our best-performing classifier is strongly influenced by the
stressed vowel's first and second formants, with some evidence that its pitch
and third formant also contribute. These results reveal deep learning's ability
to acquire distributed cues to stress from naturally occurring data, extending
traditional phonetic work based around highly controlled stimuli.