Speak Your Mind: The Speech Continuation Task as a Probe of Voice-Based Model Bias
2509.22061v1
eess.AS, cs.CL, cs.SD
2025-09-30
Авторы:
Shree Harsha Bokkahalli Satish, Harm Lameris, Olivier Perrotin, Gustav Eje Henter, Éva Székely
Резюме на русском
## Контекст
**Speech Continuation (SC)** — это задача генерирования когнетивно согласованных и контекстуально подходящих продлений речи с учетом исходной фразы и аудиоконтекста. Она отличается тем, что ограничена одним аудиопотоком, что позволяет более точно проверить модели голоса на наличие социально релевантных биасосов. Несмотря на прогресс в области глубокого обучения, модели голоса часто склонны к стереотипам и неравенствам. Это влияет на их удобочитаемость и точность в реальном мире, особенно в контексте языковой идентификации и социальной нормы. **Speak Your Mind** — первое систематическое исследование, которое изучает эти биасы в задаче SC, определяя, как гендер и тип фонота (пушистый, хриплый, конечный хрип) влияют на продолжающиеся фразы. Это позволяет выявить проблемы со специальными моделями речи, включая представления о женщинах, гомофониях и типе голоса.
## Метод
**Speak Your Mind** использует множество метрик для оценки продолжений речи: **semantic fidelity** (точность содержания), **coherence** (логичность), **speaker similarity** (похожесть на голос), и **voice quality preservation** (сохранение голоса). Три модели голоса исследуются: **SpiritLM (base и expressive)**, **VAE-GSLM**, и **SpeechGPT**. Модели обучаются на разных данных, чтобы сравнить гендерные и типы голоса, а также подсчитывается продолжение слов, сложность текста и звуков. Используется большое количество данных с разными типами голоса, чтобы протестировать качество продолжений и их соответствие оригинальному голосу.
## Результаты
Результаты показывают, что все модели сталкиваются с проблемами, такими как **speaker similarity** и **semantic fidelity**, особенно при продолжении голоса женщин. Женщины оказываются более чувствительными к **voice quality bias** — их фоноты чаще возвращаются к умолятельному голосу, чем у мужчин. Модели также оказались чувствительными к гендеру в текстовых метриках, таких как **agency** (агентность) и **sentence polarity** (положительность предложений). Например, **VAE-GSLM** показал более высокую точность в продолжении, но также демонстрировал более сильные гендерные эффекты в тексте. В целом, результаты показывают, что **SC** — это эффективный инструмент для проверки социальных биасов в моделях речи.
## Значимость
**Speak Your Mind** открывает новые пути для исследований социальных биасов в моделях речи. Он показывает, что SC может быть использован для выявления и изучения гендерных и типов голоса, что может быть полезно для создания более нейтральных моделей. Эта работа также открывает возможности для дальнейшего исследования звуковой и текстовой структуры речи, которая может помочь в улучшении **voice foundation models**. Будущие исследования могут более глубоко изучить
Abstract
Speech Continuation (SC) is the task of generating a coherent extension of a
spoken prompt while preserving both semantic context and speaker identity.
Because SC is constrained to a single audio stream, it offers a more direct
setting for probing biases in speech foundation models than dialogue does. In
this work we present the first systematic evaluation of bias in SC,
investigating how gender and phonation type (breathy, creaky, end-creak) affect
continuation behaviour. We evaluate three recent models: SpiritLM (base and
expressive), VAE-GSLM, and SpeechGPT across speaker similarity, voice quality
preservation, and text-based bias metrics. Results show that while both speaker
similarity and coherence remain a challenge, textual evaluations reveal
significant model and gender interactions: once coherence is sufficiently high
(for VAE-GSLM), gender effects emerge on text-metrics such as agency and
sentence polarity. In addition, continuations revert toward modal phonation
more strongly for female prompts than for male ones, revealing a systematic
voice-quality bias. These findings highlight SC as a controlled probe of
socially relevant representational biases in speech foundation models, and
suggest that it will become an increasingly informative diagnostic as
continuation quality improves.
Ссылки и действия
Дополнительные ресурсы: