Speak Your Mind: The Speech Continuation Task as a Probe of Voice-Based Model Bias

2509.22061v1 eess.AS, cs.CL, cs.SD 2025-09-30
Авторы:

Shree Harsha Bokkahalli Satish, Harm Lameris, Olivier Perrotin, Gustav Eje Henter, Éva Székely

Резюме на русском

## Контекст **Speech Continuation (SC)** — это задача генерирования когнетивно согласованных и контекстуально подходящих продлений речи с учетом исходной фразы и аудиоконтекста. Она отличается тем, что ограничена одним аудиопотоком, что позволяет более точно проверить модели голоса на наличие социально релевантных биасосов. Несмотря на прогресс в области глубокого обучения, модели голоса часто склонны к стереотипам и неравенствам. Это влияет на их удобочитаемость и точность в реальном мире, особенно в контексте языковой идентификации и социальной нормы. **Speak Your Mind** — первое систематическое исследование, которое изучает эти биасы в задаче SC, определяя, как гендер и тип фонота (пушистый, хриплый, конечный хрип) влияют на продолжающиеся фразы. Это позволяет выявить проблемы со специальными моделями речи, включая представления о женщинах, гомофониях и типе голоса. ## Метод **Speak Your Mind** использует множество метрик для оценки продолжений речи: **semantic fidelity** (точность содержания), **coherence** (логичность), **speaker similarity** (похожесть на голос), и **voice quality preservation** (сохранение голоса). Три модели голоса исследуются: **SpiritLM (base и expressive)**, **VAE-GSLM**, и **SpeechGPT**. Модели обучаются на разных данных, чтобы сравнить гендерные и типы голоса, а также подсчитывается продолжение слов, сложность текста и звуков. Используется большое количество данных с разными типами голоса, чтобы протестировать качество продолжений и их соответствие оригинальному голосу. ## Результаты Результаты показывают, что все модели сталкиваются с проблемами, такими как **speaker similarity** и **semantic fidelity**, особенно при продолжении голоса женщин. Женщины оказываются более чувствительными к **voice quality bias** — их фоноты чаще возвращаются к умолятельному голосу, чем у мужчин. Модели также оказались чувствительными к гендеру в текстовых метриках, таких как **agency** (агентность) и **sentence polarity** (положительность предложений). Например, **VAE-GSLM** показал более высокую точность в продолжении, но также демонстрировал более сильные гендерные эффекты в тексте. В целом, результаты показывают, что **SC** — это эффективный инструмент для проверки социальных биасов в моделях речи. ## Значимость **Speak Your Mind** открывает новые пути для исследований социальных биасов в моделях речи. Он показывает, что SC может быть использован для выявления и изучения гендерных и типов голоса, что может быть полезно для создания более нейтральных моделей. Эта работа также открывает возможности для дальнейшего исследования звуковой и текстовой структуры речи, которая может помочь в улучшении **voice foundation models**. Будущие исследования могут более глубоко изучить

Abstract

Speech Continuation (SC) is the task of generating a coherent extension of a spoken prompt while preserving both semantic context and speaker identity. Because SC is constrained to a single audio stream, it offers a more direct setting for probing biases in speech foundation models than dialogue does. In this work we present the first systematic evaluation of bias in SC, investigating how gender and phonation type (breathy, creaky, end-creak) affect continuation behaviour. We evaluate three recent models: SpiritLM (base and expressive), VAE-GSLM, and SpeechGPT across speaker similarity, voice quality preservation, and text-based bias metrics. Results show that while both speaker similarity and coherence remain a challenge, textual evaluations reveal significant model and gender interactions: once coherence is sufficiently high (for VAE-GSLM), gender effects emerge on text-metrics such as agency and sentence polarity. In addition, continuations revert toward modal phonation more strongly for female prompts than for male ones, revealing a systematic voice-quality bias. These findings highlight SC as a controlled probe of socially relevant representational biases in speech foundation models, and suggest that it will become an increasingly informative diagnostic as continuation quality improves.

Ссылки и действия